2019年09月_有意识的呼吸

12月 11月 10月 09月 08月

原创知乎相关项目

回答导出电子书login.py# 要想获取知乎的数据，必须要登录，运行此文件必须手动配置好 chromedriver# 设置了知乎反爬虫暂停代码，建议命令行运行此项目，启动/激活项目输入 scrapy crawl zhihufrom selenium.webdriver import Chrome,ChromeOptionsimport time,json,requests,osfro...

2019-09-23 13:28:44 193

原创 Selenium 作为 Scrapy 的下载中间件

众所周知，大部分网页的数据都是能通过静态 html 分析快速得到的，但是遇到 ajax 动态数据和 js 加密的网页后就很难直接获取到想要的数据。而 Selenium 就能直接规避麻烦的部分，模拟浏览器直接获得数据。以我上篇文章抓取简书的数据为例，这里的专题就是通过 ajax 才能得到。而且标签名都加了密：下面是源码：from selenium.webdriver impor...

2019-09-05 08:00:16 427

原创 python 简书全站文章爬取 [mysql异步存储]

2019年9月4日测试可用settings.py中必要的设置# Obey robots.txt rulesROBOTSTXT_OBEY = FalseDEFAULT_REQUEST_HEADERS = { 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Lan...

2019-09-04 15:36:39 187 3

原创 python 爬虫常用User-Agent 以及随机请求头

官网跳转：http://www.useragentstring.com/pages/useragentstring.php"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36","Mozilla/5.0 (Windows N...

2019-09-03 03:50:22 802

文本检索器【PYQT打包的，所以比较大】

遍历路径下的所有文件，找到需要的字符串懒得下载可以去我的博客里看源码，老简单了

2021-05-25

Git-2.25.0-64-bit.zip

Git是一个开源的分布式版本控制系统，可以有效、高速地处理从很小到非常大的项目版本管理。 Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。2020.2.10测试可用

2020-02-10

模拟电影数据.xlsx

模拟电影数据，用来pandas学习。列名：名字，投票人数，类型，产地，上映时间，时长，年代，评分，首映地点 38737行数据

2019-11-23

GNS3-2.2.3-all-in-one-regular.exe

2019年11月19日下载可用。 GNS3是一款具有图形化界面可以运行在多平台（包括Windows, Linux, and MacOS等）的网络虚拟软件。Cisco网络设备管理员或是想要通过CCNA,CCNP,CCIE等Cisco认证考试的相关人士可以通过它来完成相关的实验模拟操作。同时它也可以用于虚拟体验Cisco网际操作系统IOS或者是检验将要在真实的路由器上部署实施的相关配置。

2019-11-19

mysql-connector-java-8.0.15.zip

pycharm的mysql驱动，这里下载的是8.0.15版本，在最新版本的pycharm[2019.2]的版本上可用。

2019-10-03

tesseract-ocr-w64-setup-v5.0.0.20190623.zip

Tesseract ，一款由HP实验室开发由Google维护的开源OCR（Optical Character Recognition , 光学字符识别）引擎，与Microsoft Office Document Imaging（MODI）相比，我们可以不断的训练的库，使图像转换文本的能力不断增强；如果团队深度需要，还可以以它为模板，开发出符合自身需求的OCR引擎。源码地址为： https://github.com/tesseract-ocr/tesseract ；

2019-08-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 知乎相关项目