python爬虫项目_大蛇王的博客-CSDN博客

python爬虫项目

关注

文章平均质量分 69

关注数：文章数：14 文章阅读量：108650 文章收藏量：351

作者: 大蛇王

为众人抱薪者，不可使其扼于风雪；为自由开路者，不可使其困于荆棘。我们可以卑微如蝼蚁，不可扭曲如蛆虫。

展开

专栏收录文章

python 下载mp4视频实例

import osimport timeimport requestsfrom tqdm import tqdm #进度条模块def down_from_url(url, dst): # 设置stream=True参数读取大文件 response = requests.get(url, stream=True) # 通过header的content-length属性可以获取文件的总容量 file_size = int(response.headers['con...

原创 2021-08-12 16:03:06 · 2917 阅读 · 0 评论
python 爬取页面内的.ts文件并合并保存

一般网站的视频都是分段加载的，简单说就是把一个视频切成多个片段来加载，每个分段都会有不同的url地址。这些url地址列表，会存放在一个.m3u8文件里。首页打开待爬取的页面获取ts文件列表，按F12查看页面内容，ctlr+F 搜索 m3u8,找到这个地址。然后我们拿到这个地址，去读取里面内容。import requestsurl="https://xxx.sdhdbd1.com/52av/20210629/A%e5%9b%bd%e4%ba%a7%e8%87%aa%e6%8b%

原创 2021-06-29 18:44:48 · 8605 阅读 · 5 评论
python通过身份证号码获取居住地址，爬虫xpath使用案例

运行环境python3.6import requestsfrom lxml import etreedef getAddr(idNum): # 网上找的第三方接口 url="http://qq.ip138.com/idsearch/index.asp?action=idcard&userid=" # 拼接完整地址 url_idnum=url+str...

原创 2019-03-12 12:09:30 · 3923 阅读 · 1 评论
python爬虫爬取APP并封装成API接口调用，使用flask-restful

#环境python3.6# 爬取APP 无忧借条# 通过用户账号密码爬取用户个人信息（我这账号密码已打码）爬虫部分代码# coding:utf8import hashlibimport timeimport urllib3import jsonheaders = {'Accept': ' */*', 'Accept-Encoding': 'gzip, deflate', 'Accep...

原创 2018-05-03 14:24:36 · 12760 阅读 · 1 评论
python 下载保存图片的urllib.urlretrieve()函数简单用法

运行环境python2.7#coding=utf-8import urllibimport redef getHtml(url): page = urllib.urlopen(url) html = page.read() return htmldef getImg(html): reg = r'src="(.+?\.jpg)" pic_ext'

转载 2017-12-18 09:25:36 · 4121 阅读 · 0 评论
python 针对selenium+phontomjs等模拟浏览器爬虫的反爬技术点

使用selenium+phontomjs爬取航空公司网站为例子1访问元素丰富度普通用户在打开网页时会有比较丰富的地址访问，而自动爬虫通常只有少数固定的页面访问，比如航司活动专版、舱位价格页面、航线动态等。图为岂安科技风控产品监控界面2访问轨迹连贯性用户在进行页面访问时，通常是有一个合理的访问轨迹，如从首页跳转到机票搜索，但爬虫在自动获取数据时，往往是对页面地

原创 2017-12-25 17:30:43 · 3033 阅读 · 0 评论
python多线程爬取糗事百科案例爬取结果保存json

# coding:utf-8# 使用了线程库import threading# 队列from Queue import Queue# 解析库from lxml import etree# 请求处理import requests# json处理import jsonimport timeclass ThreadCrawl(threading.Thread): de

原创 2017-12-06 13:50:25 · 934 阅读 · 0 评论
python爬虫使用selenium+phontomjs 模拟点击输入获取东航加载后的源码机票价格

#coding:utf8from selenium import webdriverimport timedriver = webdriver.PhantomJS()driver.get('http://www.ceair.com/flight2014/pvg-nay-171201_CNY.html')time.sleep(1)driver.save_screenshot('5.

原创 2017-12-06 13:42:30 · 4475 阅读 · 3 评论
python爬虫如何解析json文件 json文件的解析提取和jsonpath的应用

这是通过抓包工具抓取到的json文件然后json文件在线解析，把内容复制粘贴进去解析得出下面的内容（右边框内）json文件的地址url="http://www.lagou.com/lbs/getAllCitySearchLabels.json"用python来解析并提取出其中的城市名代码如下：#coding:utf8import urlli

原创 2017-12-06 10:43:40 · 57488 阅读 · 1 评论
python爬虫webdriver.Chrome 数据可视化简单案例matplotlib

这个项目的功能是在智联上搜索python几个方向的工作岗位数量，并以图片形式显示#coding:utf-8from selenium import webdriverimport re #正则表达式import matplotlib.pyplot as plt #数据可视化import matplotlibdef getworknumbersbyname(searchn

原创 2017-12-21 10:46:31 · 1613 阅读 · 0 评论
python urllib2模拟浏览器请求爬虫

#coding:utf-8import urllib2ua_headers={ "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0"}request=urllib2.Request("http://baidu.com/",headers=ua_header

原创 2017-12-04 14:49:03 · 2025 阅读 · 0 评论
python 使用免费爬取百度首页网页简单案例

#coding:utf8import urllib2url="http://www.baidu.com/"# 代理开关，表示是否启用代理# 西刺代理网址 http://www.xicidaili.com/proxyswitch=True# 构建一个Handler处理器对象，参数是一个字典类型，包括代理类型和代理服务器IP+PORThttpproxy_handler=urllib

原创 2017-12-04 14:19:27 · 3133 阅读 · 0 评论
python 爬取西刺免费代理ip 并使用telnetlib.Telnet验证是否有效

最近运行使用时间2017.12.01运行结果正常运行环境python.27#coding:utf8from bs4 import BeautifulSoupimport urllib2import sysreload(sys)import telnetlibdef getProxyList(targeturl="http://www.xicidaili.com/nn/

原创 2017-12-01 17:28:02 · 2091 阅读 · 0 评论
python 爬取斗鱼 Ajax动态加载js分页使用phontomjs无界面浏览器

python2.7版本#coding:utf8import unittestfrom selenium import webdriverfrom bs4 import BeautifulSoup as bsclass douyu(unittest.TestCase): # 初始化方法，必须是setUp() def setUp(self): self.d

原创 2017-12-08 13:56:33 · 1532 阅读 · 0 评论

python爬虫项目

作者: 大蛇王

python 下载mp4视频 实例

python 爬取页面内的.ts文件并合并保存

python通过身份证号码获取居住地址，爬虫xpath使用案例

python爬虫爬取APP并封装成API接口调用，使用flask-restful

python 下载 保存 图片的urllib.urlretrieve()函数 简单用法

python 针对selenium+phontomjs等模拟浏览器爬虫的反爬技术点

python多线程爬取糗事百科 案例 爬取结果保存json

python爬虫 使用selenium+phontomjs 模拟点击输入 获取东航加载后的源码 机票价格

python爬虫 如何解析json文件 json文件的解析提取和jsonpath的应用

python爬虫webdriver.Chrome 数据可视化简单案例matplotlib

python urllib2模拟浏览器请求 爬虫

python 使用免费爬取百度首页 网页 简单案例

python 爬取西刺免费代理ip 并使用telnetlib.Telnet验证是否有效

python 爬取斗鱼 Ajax动态加载js分页 使用phontomjs无界面浏览器

python 下载mp4视频实例

python 下载保存图片的urllib.urlretrieve()函数简单用法

python多线程爬取糗事百科案例爬取结果保存json

python爬虫使用selenium+phontomjs 模拟点击输入获取东航加载后的源码机票价格

python爬虫如何解析json文件 json文件的解析提取和jsonpath的应用

python urllib2模拟浏览器请求爬虫

python 使用免费爬取百度首页网页简单案例

python 爬取斗鱼 Ajax动态加载js分页使用phontomjs无界面浏览器