网络爬虫
Anastasia_li
爱看电影,爱弹吉他的程序媛一枚~
展开
-
mac中安装Chromedriver时出现无法将其移动至/usr/bin
1.关机。再开机,开机的同时按住cmd+r ,进入恢复模式,打开终端,输入csrutil disable,执行后关闭终端。重启电脑,进入终端。2.cd到/usr/bin 执行:sudo mount -uw /,增加写入权限。 然后就可以移动chromedriver到/usr/bin了作者:知乎用户链接:https://www.zhihu.com/question/389103790/answer/1402705272来源:知乎...原创 2020-11-27 20:46:23 · 1074 阅读 · 0 评论 -
百度爬取100张狗狗图片
因为百度上狗狗图片是动态加载的,用requests爬取到的图片只有30张,所以去我选择用selenium.为了方便分析网页代码,我习惯将代码写入文件,方便查看异常,另外还可以避免重复爬取被拉黑.代码如下:import requestsfrom lxml import etreefrom selenium import webdriverurl = "https://image.baidu.com/search/index?tn=baiduimage&word=100%D5%C5%B9%B7原创 2020-09-29 23:07:22 · 905 阅读 · 0 评论 -
爬取网页文件遇到乱码问题之网页编码格式问题
在爬取网页的过程中遇到爬取到的网页数据是乱码的情况,打印编码格式,发现网页编码格式和python编码格式不一样res = requests.get("https://m.tupianzj.com/meinv/mm/meinvxiezhen",headers=headers)res.encoding = "gb2312"print(res.encoding)print(text)然后把编码格式转换一下就可以正常显示啦res = requests.get("https://m.tupianzj原创 2020-09-07 15:22:11 · 351 阅读 · 0 评论