_feiji-CSDN博客

原创 python 携程航班信息查询

查询页面携程链接第一步找到数据怎么来的发现航班信息在返回 json 的 routeList 里看传递的参数然后只要找到token是怎么来的就好了可以确定token 是由 app.js 生成的，可以看到这个请求只调用过app.js到 app.js 里去搜索，在可疑的地方打断点然后回到页面重新搜索航班调用了p.getProductToken 函数，传递了三个参数 can bjs Oneway ，分别是出发城市、到达城市、单程。执行下一步继续执行后面就不分析了，.

2021-01-05 15:21:44 1728 1

原创 python 汽车之家爬取

# 汽车之家字体反爬from lxml import htmlfrom fontTools.ttLib import TTFontimport requestsimport reheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3776.400 Q

2020-12-07 23:37:14 245

原创 python 爬取taptap热门榜

用到工具有mitmproxy 、appium热门榜页面3.抓取到的数据from appium import webdriverfrom selenium.webdriver.support.wait import WebDriverWaitimport threadingimport csvimport jsonimport timedef appium(): desired_caps = {} desired_caps['platformName'] = 'An.

2020-12-01 23:02:31 1646

原创 python 验证码字符分割

用tesseract-ocr 识别率不高，想要自己训练字体这里用的是中国知网注册页面的验证码中国知网注册页验证码实现思路，图片二值化后，遍历每一个像素点找到起始像素，向上下左右寻找相邻像素直至结束。有个问题就是若两个字符挨着就会把全部相邻的字符都找到加了个简单的判断，限制字体长度然而效果不是很好，如果是两个长度较短的字符相邻还是没有用，w字符容易丢失像素，没有太好的解决办法。另一个解决方法把像素点过多的图片去除，剩下的图片可以用来训练字体# 下载验证码import reques

2020-11-27 13:08:04 1459 2

原创 python 异步爬虫和普通爬虫对比

效率对比异步爬虫# 协程方式爬取非小号数据# https://www.feixiaohao.com/list_1.htmlimport timeimport jsonimport asyncioimport csvimport aiohttpstart_time = time.time()writer = csv.writer(open('非小号.csv','w',encoding='utf-8',newline=''))writer.writerow(['current_pri

2020-11-04 21:00:46 459

原创 python selenium 注册 filfox 钱包

注册 filfox 钱包from selenium import webdriverfrom selenium.webdriver.support.wait import WebDriverWaitimport threadingimport csvfrom multiprocessing import Queuefw = open('data.csv','a',encoding='utf-8',newline='')writer = csv.writer(fw)#writer.writ

2020-11-01 00:19:59 1015

原创 Docker splash web页面加载错误

创建容器登陆http://192.168.99.100:8050/ ，页面加载错误jquery加载失败，原因是国外的网址访问不了。解决方法：到官网下载代码https://github.com/scrapinghub/splash修改splash-master/splash/resources.py 文件<script src="//code.jquery.com/jquery-1.11.1.min.js"></script>修改<script src=

2020-10-16 21:23:08 958 19

原创 docker This computer doesn’t have VT-X/AMD-v enabled .Enabling 错误

启动Docker Quickstart Terminal出现错误：This computer doesn’t have VT-X/AMD-v enabled. Enabling it in the BIOS is mandatory"!检查了电脑已经开了vt，还是报这个错。打开C:\Program Files\Docker Toolbox\start.sh 文件第69行"${DOCKER_MACHINE}" create -d virtualbox $PROXY_ENV "${VM}"替换

2020-10-14 21:28:29 966

原创 scrapy 爬取麦田二手房信息

用scrapy写了个爬虫，爬取麦田北京二手房信息，一共爬取了11718条，也遇到了一些问题页数限制访问北京市二手房只显示100页的数据，各地区售房数量index_iddistrictcount1朝阳61392海淀18223丰台8284东城7275大兴6726昌平6247西城4458石景山1689通州15010顺义14011门头沟3...

2020-10-06 13:03:06 202

原创 pyecharts qq聊天记录数据可视化

数据说明1.本次数据来源于qq群聊天记录2.一共3123条数据，可以直接用qq导出聊天记录3.使用到的库有pyecharts jieba发言排行index_idnamecount1闰土7392天天4953温柔少女豆瓣酱β30847酱2965逢考必过2716土猹2657辞1878不吃香菜1259予8910靓仔飞机66时间段统计词频分析index_idWord

2020-09-04 14:27:49 1041

原创 python Django 搭建博客

创建项目django-admin startproject 项目名创建应用python manage.py startapp 应用名在 settings.py 文件 INSTALLED_APPS 里添加app

2020-08-26 12:16:42 174

原创 selenium 爬取网易音乐评论

最近网抑云很火，就想爬取上面热门的评论，也遇到不少问题，记录一下。问题1.网站是javascript动态渲染页面，直接用request爬取不到数据上网查了许多信息，用request也可以获取到数据，比较复杂，有兴趣可以看下面一位大佬的分析。网易云音乐评论爬虫 params encSecKey逆向分析还有就是使用Selenium，网上对 Selenium的介绍：Selenium是一个自动化测试工具，利用它可以驱动浏览器执行特定的动作，如点击、下拉等操作，同时还可以获取浏览器当前呈现的页面的源代码

2020-08-19 00:30:40 436

原创攻防世界 upload1 Writeup

攻防世界 upload1 Writeup进入界面查看源码编写上传文件绕过验证获取flag进入界面只有一个上传功能。查看源码发现前端对文件类型进行了过滤，不是jpg，png文件就把上传按钮禁用。编写上传文件php一句话 <?php eval($_GET['cmd']);?>绕过验证这里可以在前端把上传按钮删了，然后在控制台用document.getElementById(“aa”).submit() 提交进行绕过。上传成功获取flag访问上传的文件获取文件目录

2020-08-04 19:00:06 254

_feiji的博客