![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python
Called_Kingsley
想当摄影师的一个大数据工程师
展开
-
python3 HTTP Error 403:Forbidden(网站对爬虫做了限制)
一般当你的爬虫程序爬起来以后,出现这种情况就是因为你要爬取的网站对爬虫进行了限制。真小气!!!直接用火狐浏览器去查看他的User-Agent就可以了然后:def getHtml(url): headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:60.0) Gecko/20100101 Fi...原创 2018-06-17 08:56:18 · 29461 阅读 · 6 评论 -
Python3解决UnicodeDecodeError:'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte
有两种办法:这个时候可以选择修改字符集参数,一般这种情况出现得较多是在国标码(GBK)和utf8之间选择出现了问题。 出现异常报错是由于设置了decode()方法的第二个参数errors为严格(strict)形式造成的,因为默认就是这个参数,将其更改为ignore等即可。例如:html.decode('utf8','ignore')...原创 2018-06-17 08:51:21 · 19229 阅读 · 7 评论 -
python抓取新浪新闻的分页连结
第一步:先找到新闻资讯存在的那个非同步存取的链接,该链接一般位在js那个分类下。然后把这个链接给requests 让它存取内部的资料。取到之后你会发现,这个内容前后两边有保护层,即一个“(”和 “);”,这个时候可以用lstrip和rstrip去截掉这些多余的字符串。最后返回的就是一个json资料,通过json.loads将它赋给一个字典。早在之前就已经发现,这个字典是分层...原创 2018-06-12 10:34:10 · 721 阅读 · 0 评论 -
python爬虫爬取新浪新闻的评论数以及部分评论
首先应该去找到评论数所对应的网页元素:可以大致猜测,这里是用JavaScript·去计算评论数量的。刷新页面,去观测页面的js部分,有没有对应的链接,仔细查看:找到之后,点击Preview,看到内部结构:可以看出count部分,total代表了参与人数,show字段代表了评论数就可以判断这就是需要的链接。也可以看出这是一种json数据。点击header,复制链接UR...原创 2018-06-10 20:11:06 · 8221 阅读 · 1 评论 -
python爬虫之抓取网页新闻标题与链接
用chrome的原生工具--检查,找查网页标题与链接对应的元素可看到,大标题‘中兴与美商务部达成和解协议:支付10亿美元罚款’对应的网页元素是:<h1 class="main-title">中兴与美商务部达成和解协议:支付10亿美元罚款</h1>所以选中 main-title贴入代码:获取新闻来源和时间:用soup将时间和...原创 2018-06-09 10:52:47 · 12471 阅读 · 1 评论 -
python__网络爬虫(1)
python爬虫__找特定的元素做抽取操作步骤:页面右键——检查——network——左上角按钮——按下需要抽取的特定元素就可以找到需要抽取的元素所在的位置...原创 2018-06-06 22:04:32 · 175 阅读 · 0 评论 -
Python之jupyter notebook
cmd输入如下命令就能找到配置文件目录[python]view plaincopyjupyternotebook--generate-config让jupyter生成一个配置文件,生成后你会看到文件地址的2.然后就可以使用记事本之类的,打开这个jupyter_notebook_config.py文件然后查找,browser,找到如下代码:## Specif...原创 2018-06-06 20:28:34 · 116 阅读 · 0 评论