爬虫|正则表达式|网页
爬虫相关知识
PerpetualLearner
这个作者很懒,什么都没留下…
展开
-
深入理解爬虫:网页分析||审查元素
Overview以前做爬虫,就是先用requests把网页内容拿下来,然后beautifulsoup4进行解析,再通过ctrl+f找到所需要的目录,通过find_all定位到位置,虽说大部分时候可以实现功能,但毕竟流程不专业.对网页进行解析的知识不可或缺.网页分析对于静态网页,浏览器右键“查看网页源代码”,这里能看到的就是GET能直接得到的HTML内容。不同于简单的静态网页, 使用JavaScript展示网页,很多内容不会出现在HTML源代码中。动态网页的抓取需要用到:通过浏览器审查元..原创 2020-12-04 22:36:04 · 3671 阅读 · 0 评论 -
html文本如何查看结构
html文件再Python中直接查看html文件,非常复杂,无法清晰看到标签的逻辑嵌套关系。如何查看标签之间的嵌套关系呢?prettify()格式化输出prettify() 方法将Beautiful Soup的文档树格式化后以Unicode编码输出,每个XML/HTML标签都独占一行。BeautifulSoup对象和它的tag节点都可以调用pretify()方法。...原创 2019-10-28 18:01:38 · 611 阅读 · 0 评论 -
正则表达式匹配全部中文、日期YYYY-MM-DD、从txt中提取url
得到一个txt文本,如何提取其中全部的url,为后续工作做准备。读取txt文本df = open('link.txt')data = df.read()patten = re.compile('a.*?b') # 以a开头,以b结尾urls = patten.findall(data)正则表达式匹配全部中文patten = re.compile("[\u4e00-\u9fa...原创 2019-06-18 10:09:08 · 3703 阅读 · 1 评论 -
(201906可用)Python爬虫公众号文章:方法、代码
个人对爬虫不是很懂,网上查阅资料,学习高质量几位前辈成功爬取文章正文。方法综述1爬取公众号目前主流的方案主要有两种:第一种是通过搜狗搜索微信公众号的页面去找到文章地址,再去爬取具体文章内容;第二种是通过注册公众号然后通过公众号的搜索接口去查询到文章地址,然后再根据地址去爬文章内容。通过搜狗搜索来做其实核心思路就是通过request模拟搜狗搜索公众号,然后解析搜索结果页面,再根据公众...原创 2019-06-18 09:57:26 · 730 阅读 · 0 评论 -
Python正则表达式re模块高频用法
re模块官方网站python中处理正则表达式的模块常用函数re.match(pattern, string, flag= 0)1match尝试从字符串开始位置匹配。匹配失败返回None参数描述pattern匹配的正则表达式string要匹配的字符串。flags标志位2,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。参见...原创 2019-06-18 10:43:41 · 275 阅读 · 0 评论 -
3个方法解决百度网盘限速 (2019-08-04 更新)
本文系转载:奔跑中的奶酪 发表如果本文方法无法加速,可能是账号被百度云监控了,如果非会员下载超过10G,则会给限速,大约一周解禁360网盘关闭后,百度云似乎要成为国内网盘的唯一选择,然而百度云下载速度太慢,显然是被限速了。下面有3个方法用于百度网盘加速下载,演示的下载文件是大于1G的一个 War3.zip 单文件(用拖拽的方法打开,否则显示页面不存在),使用的宽带是电信20M,百度限速后的...转载 2019-08-09 11:03:17 · 26395 阅读 · 8 评论