![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
weixin_43137256
这个作者很懒,什么都没留下…
展开
-
scrapy的使用(学习记录)
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入 欢迎使用Ma...原创 2019-03-26 11:10:08 · 133 阅读 · 2 评论 -
查看chrome版本
查看chrome版本 chrome://version/原创 2019-03-28 17:07:43 · 2194 阅读 · 0 评论 -
chromedirver 的坑
chromedirver 的坑 首先在当前环境里面安装好selenium,然后就不要管它。 第二步,查看当前chrome的版本,在chrome浏览器的地址栏输入指令:chrome//chrome/version 第三步,就是chrome路径配置的错误,把在系统变量里添加chromedriver安装路径。 第四步,把chromedriver.exe就是你那个可执行文件放在,C盘Windows下面的S...原创 2019-03-28 18:05:22 · 193 阅读 · 0 评论 -
代理
爬虫使用代理 场景:当同一台主机ip短时间内请求对方服务器次数过多时,会被判定为爬虫,ip被封,导致信息无法获取。 专业一点就是:1.让服务器以为不止一个客户端在请求;2.防止我们真实地址被泄露,防止被追究。 1.requests: 方法:在访问时添加proxies代理,proxies形式:字典 proxies={ “http”:“12.34.56.79:9527”, “https”:“12....翻译 2019-06-17 10:52:34 · 82 阅读 · 0 评论 -
启动爬虫的的cmdline命令和文件下载编码问题解决
启动爬虫的的cmdline命令和文件下载编码问题解决 1.启动爬虫的命令为: scrapy crawl spidername(爬虫名) 2.我们还可以通过下述方式来启动爬虫 步骤一:创建一个.py文件。startspider.py(这里文件的名称可以自己给定) #!/usr/bin/env python -- coding: utf-8 -- from scrapy.cmdline import ...转载 2019-08-14 14:38:16 · 341 阅读 · 0 评论