爬虫
没读过书的孩子
这个作者很懒,什么都没留下…
展开
-
【爬虫】robots.txt文件的探索及在github上的使用
一.robots.txt文件Robots是站点与spider爬虫沟通的重要渠道,站点通过robots文件声明本网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。在该文件中可以使用#进行注解。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情况如下:User-agent:该项的值用于描述搜索引擎robot的名字。在"robo...原创 2020-02-24 17:13:04 · 2669 阅读 · 1 评论 -
python 爬虫:BeautifulSoup(bs4) 找不到对应的元素
import reimport urllib.parsefrom bs4 import BeautifulSoup soup = BeautifulSoup(html_cont,'html.parser') readList = soup.find_all('div',id="post_next_prev")如上代码: 右键审查网页元素时,很明显的能找到 id 为post_next...转载 2020-02-13 19:15:22 · 9390 阅读 · 1 评论 -
bs4(beautifulsoup4)获取div部分文本内容(标签下的文本及子标签文本问题)
一.问题如何提取以下文本中的“开车之后…踩了刹车”如何提取以下文本中的“开车之后.......踩了刹车”<div class="zh-summary summary clearfix">开车之后明白了一个道理:你能横穿马路跑过去,不是因为你跑得快,而是过来的车都踩了刹车。<a href="/question/38627388/answer/124188978" cl...原创 2020-02-11 17:04:25 · 22163 阅读 · 5 评论 -
python爬虫===全网表情包爬取
import requestsimport reimport osdef get_url(url): response=requests.get(url) response.encoding='utf-8' url_addr=r'<img src="(.*?)".*?/>'#正则表达式 url_list=re.findall(url_addr,re...原创 2018-07-02 13:24:29 · 3906 阅读 · 0 评论