python爬虫项目
文章平均质量分 69
大蛇王
为众人抱薪者,不可使其扼于风雪;
为自由开路者,不可使其困于荆棘。
我们可以卑微如蝼蚁,不可扭曲如蛆虫。
展开
-
python 下载mp4视频 实例
import osimport timeimport requestsfrom tqdm import tqdm #进度条模块def down_from_url(url, dst): # 设置stream=True参数读取大文件 response = requests.get(url, stream=True) # 通过header的content-length属性可以获取文件的总容量 file_size = int(response.headers['con...原创 2021-08-12 16:03:06 · 2642 阅读 · 0 评论 -
python 爬取页面内的.ts文件并合并保存
一般网站的视频都是分段加载的,简单说就是把一个视频切成多个片段来加载,每个分段都会有不同的url地址。这些url地址列表,会存放在一个.m3u8文件里。首页打开待爬取的页面获取ts文件列表,按F12查看页面内容,ctlr+F 搜索 m3u8,找到这个地址。然后我们拿到这个地址,去读取里面内容。import requestsurl="https://xxx.sdhdbd1.com/52av/20210629/A%e5%9b%bd%e4%ba%a7%e8%87%aa%e6%8b%原创 2021-06-29 18:44:48 · 8269 阅读 · 5 评论 -
python通过身份证号码获取居住地址,爬虫xpath使用案例
运行环境python3.6import requestsfrom lxml import etreedef getAddr(idNum): # 网上找的第三方接口 url="http://qq.ip138.com/idsearch/index.asp?action=idcard&userid=" # 拼接完整地址 url_idnum=url+str...原创 2019-03-12 12:09:30 · 3816 阅读 · 1 评论 -
python爬虫爬取APP并封装成API接口调用,使用flask-restful
#环境python3.6# 爬取APP 无忧借条# 通过用户账号密码爬取用户个人信息(我这账号密码已打码)爬虫部分代码# coding:utf8import hashlibimport timeimport urllib3import jsonheaders = {'Accept': ' */*', 'Accept-Encoding': 'gzip, deflate', 'Accep...原创 2018-05-03 14:24:36 · 12559 阅读 · 1 评论 -
python 下载 保存 图片的urllib.urlretrieve()函数 简单用法
运行环境python2.7#coding=utf-8import urllibimport redef getHtml(url): page = urllib.urlopen(url) html = page.read() return htmldef getImg(html): reg = r'src="(.+?\.jpg)" pic_ext'转载 2017-12-18 09:25:36 · 4049 阅读 · 0 评论 -
python 针对selenium+phontomjs等模拟浏览器爬虫的反爬技术点
使用selenium+phontomjs爬取航空公司网站为例子1访问元素丰富度普通用户在打开网页时会有比较丰富的地址访问,而自动爬虫通常只有少数固定的页面访问,比如航司活动专版、舱位价格页面、航线动态等。图为岂安科技风控产品监控界面2访问轨迹连贯性用户在进行页面访问时,通常是有一个合理的访问轨迹,如从首页跳转到机票搜索,但爬虫在自动获取数据时,往往是对页面地原创 2017-12-25 17:30:43 · 2951 阅读 · 0 评论 -
python多线程爬取糗事百科 案例 爬取结果保存json
# coding:utf-8# 使用了线程库import threading# 队列from Queue import Queue# 解析库from lxml import etree# 请求处理import requests# json处理import jsonimport timeclass ThreadCrawl(threading.Thread): de原创 2017-12-06 13:50:25 · 880 阅读 · 0 评论 -
python爬虫 使用selenium+phontomjs 模拟点击输入 获取东航加载后的源码 机票价格
#coding:utf8from selenium import webdriverimport timedriver = webdriver.PhantomJS()driver.get('http://www.ceair.com/flight2014/pvg-nay-171201_CNY.html')time.sleep(1)driver.save_screenshot('5.原创 2017-12-06 13:42:30 · 4360 阅读 · 3 评论 -
python爬虫 如何解析json文件 json文件的解析提取和jsonpath的应用
这是通过抓包工具抓取到的json文件然后json文件在线解析,把内容复制粘贴进去解析得出下面的内容(右边框内)json文件的地址url="http://www.lagou.com/lbs/getAllCitySearchLabels.json"用python来解析 并提取出其中的城市名代码如下:#coding:utf8import urlli原创 2017-12-06 10:43:40 · 57048 阅读 · 1 评论 -
python爬虫webdriver.Chrome 数据可视化简单案例matplotlib
这个项目的功能是在智联上搜索python几个方向的工作岗位数量,并以图片形式显示#coding:utf-8from selenium import webdriverimport re #正则表达式import matplotlib.pyplot as plt #数据可视化import matplotlibdef getworknumbersbyname(searchn原创 2017-12-21 10:46:31 · 1549 阅读 · 0 评论 -
python urllib2模拟浏览器请求 爬虫
#coding:utf-8import urllib2ua_headers={ "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0"}request=urllib2.Request("http://baidu.com/",headers=ua_header原创 2017-12-04 14:49:03 · 1968 阅读 · 0 评论 -
python 使用免费爬取百度首页 网页 简单案例
#coding:utf8import urllib2url="http://www.baidu.com/"# 代理开关,表示是否启用代理# 西刺代理网址 http://www.xicidaili.com/proxyswitch=True# 构建一个Handler处理器对象,参数是一个字典类型,包括代理类型和代理服务器IP+PORThttpproxy_handler=urllib原创 2017-12-04 14:19:27 · 3072 阅读 · 0 评论 -
python 爬取西刺免费代理ip 并使用telnetlib.Telnet验证是否有效
最近运行使用时间2017.12.01运行结果正常运行环境python.27#coding:utf8from bs4 import BeautifulSoupimport urllib2import sysreload(sys)import telnetlibdef getProxyList(targeturl="http://www.xicidaili.com/nn/原创 2017-12-01 17:28:02 · 2047 阅读 · 0 评论 -
python 爬取斗鱼 Ajax动态加载js分页 使用phontomjs无界面浏览器
python2.7版本#coding:utf8import unittestfrom selenium import webdriverfrom bs4 import BeautifulSoup as bsclass douyu(unittest.TestCase): # 初始化方法,必须是setUp() def setUp(self): self.d原创 2017-12-08 13:56:33 · 1482 阅读 · 0 评论