- 博客(4)
- 资源 (6)
- 收藏
- 关注
原创 知乎相关项目
回答导出电子书login.py# 要想获取知乎的数据,必须要登录,运行此文件必须手动配置好 chromedriver# 设置了知乎反爬虫暂停代码,建议命令行运行此项目,启动/激活项目输入 scrapy crawl zhihufrom selenium.webdriver import Chrome,ChromeOptionsimport time,json,requests,osfro...
2019-09-23 13:28:44 193
原创 Selenium 作为 Scrapy 的下载中间件
众所周知,大部分网页的数据都是能通过静态 html 分析快速得到的,但是遇到 ajax 动态数据和 js 加密的网页后就很难直接获取到想要的数据。而 Selenium 就能直接规避麻烦的部分,模拟浏览器直接获得数据。以我上篇文章抓取简书的数据为例,这里的专题就是通过 ajax 才能得到。而且标签名都加了密:下面是源码:from selenium.webdriver impor...
2019-09-05 08:00:16 427
原创 python 简书全站文章爬取 [mysql异步存储]
2019年9月4日测试可用settings.py中必要的设置# Obey robots.txt rulesROBOTSTXT_OBEY = FalseDEFAULT_REQUEST_HEADERS = { 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Lan...
2019-09-04 15:36:39 187 3
原创 python 爬虫常用User-Agent 以及 随机请求头
官网跳转:http://www.useragentstring.com/pages/useragentstring.php"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36","Mozilla/5.0 (Windows N...
2019-09-03 03:50:22 802
Git-2.25.0-64-bit.zip
2020-02-10
GNS3-2.2.3-all-in-one-regular.exe
2019-11-19
mysql-connector-java-8.0.15.zip
2019-10-03
tesseract-ocr-w64-setup-v5.0.0.20190623.zip
2019-08-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人