Web Crawler
文章平均质量分 70
Ta来自江湖
这个作者很懒,什么都没留下…
展开
-
爬虫之抓包工具Fiddler抓取HTTPS设置
Fiddler是网络爬虫的重要辅助工具,更好地利用它可以使得我们的爬虫工作事半功倍。首先,我们得下载Fiddler,直接去官网就可以下载,免费的,这里就不再累赘了。我现在要说的是如何利用Fiddler抓取HTTPS的设置:1.启动Fiddler>打开菜单栏中的 Tools > Options,打开“Options”对话框2.打开‘Option'对话框>选中HTTPS>选中C...原创 2018-04-08 18:06:30 · 1405 阅读 · 0 评论 -
正则表达式详解
正则表达式(Regular Expression),又称正规表达式、规则表达式等,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,也通常用来检索、替换那些匹配某个模式的文本。下面从以下方面开始讲述正则表达式在python中的应用。re模块1.在python中使用,首先需要导入一个包,即re模块2.re模块示例3.一般的使用步骤(1)使用c...原创 2018-04-15 20:49:35 · 242 阅读 · 0 评论 -
python3爬虫常用的方式分析
1.requests模块requests模块中的get()方法是比较常用的方式之一。首先,需要安装requests模块:pip install requests其次,请看下图所示import requestsdef test(): url = 'https://www.toutiao.com/' headers = { 'User-Agent': 'Mozilla/...原创 2018-06-12 15:24:09 · 407 阅读 · 0 评论 -
python爬虫之如何随机更换User-Agent
python爬虫爬取网站内容时,如果什么也没带,即不带报头headers,往往会被网站管理维护人员认定为机器爬虫。因为,此时python默认的user-agent如Python-urllib/2.1一样。因此,网站管理人员会根据请求的user-agent判定你是不是机器爬虫。所以,此时往往就需要伪装user-agent,模拟成真实的浏览器去取出内容。下面是一些比较常用的浏览器的user-agent...原创 2018-05-30 11:10:00 · 13481 阅读 · 1 评论 -
python爬虫之URLError、HTTPError以及requests中的SSLError
python爬虫时,我们在使用urlopen()或者opener.open()发出请求时,如果这个请求无法得到处理,那么,就会产生错误。常见的错误有URLError、HTTPError以及requests中的SSLError,下面我们来一一结束。URLError 产生原因: 1,没有网络连接 2,服务器连接失败 3,找不到指定的服务器 我们可以...原创 2018-05-30 12:33:10 · 2342 阅读 · 0 评论 -
今日头条文章评论内容爬取
因为业务要求,需要爬取今日头条文章相关评论内容。经过分析,今日头条评论接口有很多个(主要包括PC端和app端)。经过分析发现app端较pc端更好爬取,主要是从大量爬取被封IP的概率考虑。下面主要以http://is-hl.snssdk.com/article/v4/tab_comments/这个链接进行分析,其他几个区别不大,可以迁移。一级评论内容URL:http://is-hl.sn...原创 2019-03-25 18:29:40 · 8868 阅读 · 5 评论 -
百度新闻评论内容抓取
通过抓包分析发现,百家号手机app端文章评论内容接口为:https://ext.baidu.com/api/comment/v1/comment/getlist?appid=101&sid=1008524_2-1010050_1-1007549_23033-1007550_23035&cuid=01B5EAF73E8A83BB842BE04E4FB6C656|23200201047...原创 2019-03-26 11:53:27 · 1974 阅读 · 4 评论 -
UC头条(大鱼)文章评论内容抓取
下面以某一篇文章为例,分析UC头条(大鱼)文章评论内容抓取:首先我们点击进入上面的这一篇文章,然后拉到评论内容区,通过抓包分析发现其评论接口为:https://m.uczzd.cn/iflow/api/v2/cmt/article/13191933289453545149/comments/byhot?uc_param_str=dnnivebichfrmintnwcpgieiwidsu...原创 2019-03-28 17:34:57 · 2355 阅读 · 1 评论