python学习
有人_295
学习使人进步
展开
-
python爬虫——豆瓣top250之scrapy框架
记录下对 scrapy 框架的认识,以及爬取豆瓣 top250 实战。一、前提编译IDA:pycharm 社区版python版本:python3.7.4二、Scrapy框架介绍2.1、结构图2.2、模块分析引擎(Scrapy)用来处理整个系统的数据流处理, 触发事务(框架核心)调度器(Scheduler)用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回....转载 2019-12-29 17:46:43 · 975 阅读 · 0 评论 -
python爬虫——猫眼 fonts 字体破解
学习之前,看了一下发现网上有教程,应该不难,但是现在都不行了,因为以前反爬虫字体只是简单的换了下字体名称,所有的参数都没有改变,所以有 TTFont 库,直接提取数值相等就可以判断这是代表哪一个字符,但是目前字体文件参数反爬做了随机偏移修改,所以网上的好像都不适合了。一、前提编译IDA:pycharm 社区版python版本:python3.7.4用到的库:requests、re、os、T...原创 2019-12-22 00:01:53 · 1378 阅读 · 0 评论 -
python爬虫——有道翻译JS破解
不知道为什么好像网上 js 逆向都属以有道翻译为例子,以前认为 js 逆向很难,但是现在还是要学习。参考:https://mp.weixin.qq.com/s/a-ORkG5XGSAP_-6GNilBbQ一、前提编译IDA:pycharm 社区版python版本:python3.7.4用到的库:requests、time、hashlib、random二、分析1、找到响应用浏览器打开...原创 2019-12-19 16:40:26 · 925 阅读 · 0 评论 -
python使用datetime并格式插入MySQL
一、MySQL中记录时间的类型二、python处理日期和时间(全部代码在最后)使用的是 datetime 库处理时间python中时间日期格式化符号:%y 两位数的年份表示(00-99)%Y 四位数的年份表示(000-9999)%m 月份(01-12)%d 月内中的一天(0-31)%H 24小时制小时数(0-23)%I 12小时制小时数(01-12) %M 分钟数(00=59...转载 2019-11-07 00:56:32 · 14098 阅读 · 0 评论 -
python 使用 lxml.etree.HTML.xpath 解析网页不完整
问题个人遇到问题,参考性可能不大网址:https://trains.ctrip.com/trainbooking/TrainSchedule/D677/今天爬取携程火车车次信息,开始运行结果好好的,但是运行到这里时出现了错误,报错是超出列表范围。我仔细查看发现是:lxml.etree.HTML.xpath 解析网页不完整,网页明明有 8 个数据,结果只能读取 7 个数据,且 第七个数据不能...原创 2019-11-02 23:29:09 · 7794 阅读 · 0 评论 -
python测试request代理IP是否替换
IP测试原创 2019-10-15 17:45:44 · 13442 阅读 · 0 评论 -
python爬虫的理解
爬虫理解爬虫我认为其实就是把网上的数据给爬取下来,无外乎就是文本、图片、音频,这三大类,而爬虫种类比较多的的是文本,图片和音频重要的是路径。爬虫分类1、爬虫文本(1)其中最简单的就是 同步获取,只要由 url 和 headers 就可以获取到整个HTML界面,要找的信息直接一层一层的提取就可以了。代表网站就是古诗文网仅仅只需要网址就可以获取整个网页(2)一般的就是 异步json,...原创 2019-08-27 00:12:23 · 394 阅读 · 0 评论 -
python爬虫——携程集成化操作
经过前面两篇文章,已经准备的差不多了爬取携程机票信息:https://blog.csdn.net/weixin_42109012/article/details/96423081获取携程城市缩写:https://blog.csdn.net/weixin_42109012/article/details/96378400现在我们就需要把我们复制请求载荷,改变为设置请求载荷。1、请求载荷分析...原创 2019-07-23 13:15:16 · 2147 阅读 · 4 评论 -
python爬虫——简单三个反反爬虫
爬虫、反爬虫、反反爬虫一直在更新换代现在我还弄不来绕过验证码,所以介绍最简单的三个方式创建一个 setting.py 存放一些 字典1、请求延时当访问突增异常时,特别是开多线程爬取,很容易被封 IP,所以最简单的就是给程序延时,隔一段时间才爬取import time#延时5秒time.slepp(5)2、更换请求头的 User-AgentRefer、Cookie都是固定的多次使...原创 2019-07-25 14:26:07 · 3490 阅读 · 0 评论 -
python爬虫——获取携程城市缩写(存入数据库)
爬虫能够帮我们收集到很多信息。我想获取携程各个票的信息,虽然一个一个城市的输入也可以得到想要的信息,但是为了模块化的获取信息,我们应该对城市(city)信息建立一个字典,所以需要得到携程提供的城市名称缩写。前提编译IDA:pycharm 社区版python版本:python3.7.4用到的库:json(自带)、requests(导入)、pymysql(导入)步骤1、查看携程信息发现...原创 2019-07-17 23:37:59 · 16092 阅读 · 5 评论 -
简单python爬虫——图片
初学python爬虫图片,先实现一个简单的(不用自己去一步一步的看在哪个模块,直接使用正则表达式查询所有的图片格式)以懒人图库为例(1)发送请求,得到界面#打开网页,下载器def open_html ( url): #发送请求 req=urllib.request.Request(url) #得到响应 reponse=urllib.request.urlop...转载 2019-05-01 13:09:05 · 196 阅读 · 0 评论 -
简单python爬虫——文字
相信很多人看到这篇文章,都是对爬虫有兴趣,而且有一定的理解,但是可能不能编写出一个完整的爬虫,没有思路。我就不再介绍爬虫原理直接介绍爬虫步骤最简单的爬虫其实就是这几个步骤[1]发送请求(url、request)[2]获得页面(一般1,2一起)[3]解析页面(有很多库,我用的是BeautifulSoup)[4]下载内容(解析页面后其实直接写入就可以了)[5]存储内容(直接文本或者链接数...原创 2019-04-30 21:49:49 · 1954 阅读 · 2 评论 -
python多线程
现在的CPU都是多核的,但是我们写的程序大部分都是单核的,为了缩短跑特征的时间,学习下python3的多线程。python提供了两个模块来实现多线程thread 和threading ,thread 有一些缺点,在threading 得到了弥补,所以我们直接学习threading 就可以了。threading的Thread类是你主要的运行对象。它有很多thread模块里没有的函数。 函数 ...转载 2019-05-02 21:50:35 · 144 阅读 · 0 评论