![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
qq_38734067
这个作者很懒,什么都没留下…
展开
-
爬虫-2 Selenium自动化操作框架
Selenium是一个浏览器自动化操作框架# =============================================================================# #python定义类和函数# =============================================================================...原创 2019-06-19 21:21:54 · 113 阅读 · 0 评论 -
爬虫_3 爬虫数据 使用selenium登录账号
# =============================================================================# 淘宝账号登录# =============================================================================#!pip install seleniumfrom ...原创 2019-06-20 11:31:39 · 139 阅读 · 0 评论 -
正则匹配_1
# =============================================================================# 正则表达式# =============================================================================import re#只能返回匹配到的第一个string...原创 2019-06-21 11:13:20 · 147 阅读 · 0 评论 -
基础简单爬虫_1
# =============================================================================# url基础爬取网页并保存为html文件# =============================================================================import urllib.re...原创 2019-06-17 13:13:09 · 177 阅读 · 0 评论 -
下载安装scrapy
方法一:用 pip直接下载import pip!pip install scrapyif 失败(下载一个晚上都没运行结束,放弃)方法二:下载scrapy的whl包:Scrapy‑1.6.0‑py2.py3‑none‑any.whl(版本可能有更新,找Scrapy前缀的就OK)。 下载地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/...原创 2019-06-17 16:12:08 · 304 阅读 · 0 评论 -
Scrapy-爬虫-4
Scrapy爬虫项目中,避免被网站服务器禁止:禁止Cookie 设置下载延时 使用IP池 使用用户代理池 其他,如进行分布式爬取等数据:XML JSON参考:书籍:《精通Python网络爬虫》(韦玮 著)...原创 2019-06-26 15:03:27 · 78 阅读 · 0 评论