Python爬虫
猫小咪编程
不忘初心
展开
-
python调用百度API实现中英文互译
import httpimport hashlibimport urllib.requestimport randomimport jsonimport csvimport pandas as pddef nodes_name_translate(node_name): appid = '' # 自己申请appid和secretKey secretKey = '' httpClient = None myurl = '/api/trans/vip/trans原创 2020-12-02 16:55:52 · 921 阅读 · 0 评论 -
多线程爬取小米应用商店
目标1、网址 :百度搜 - 小米应用商店,进入官网2、目标 :所有应用分类 应用名称 应用链接实现步骤1、确认是否为动态加载1、页面局部刷新2、右键查看网页源代码,搜索关键字未搜到# 此网站为动态加载网站,需要抓取网络数据包分析2、F12抓取网络数据包1、抓取返回json数据的URL地址(Headers中的Request URL) http://app.mi.com/categotyAllListApi?page={}&categoryId=2&原创 2020-05-25 22:12:22 · 922 阅读 · 0 评论 -
豆瓣电影数据抓取案例
目标1、地址: 豆瓣电影 - 排行榜 - 剧情2、目标: 电影名称、电影评分F12抓包(XHR)1、Request URL(基准URL地址) :https://movie.douban.com/j/chart/top_list?2、Query String(查询参数)# 抓取的查询参数如下:type: 13 # 电影类型interval_id: 100:90action...原创 2020-04-19 13:55:07 · 1910 阅读 · 0 评论 -
民政部网站数据抓取
目标1、URL: http://www.mca.gov.cn/ - 民政数据 - 行政区划代码 即: http://www.mca.gov.cn/article/sj/xzqh/2019/2、目标: 抓取最新中华人民共和国县以上行政区划代码实现步骤1、从民政数据网站中提取最新行政区划代码链接# 特点1、最新的在上面2、命名格式: 2019年X月中华人民共和国县以上行政区划...原创 2020-04-19 13:53:41 · 1099 阅读 · 0 评论 -
链家二手房案例(xpath)
基于User-Agent反爬1、发送请求携带请求头: headers={'User-Agent' : 'Mozilla/5.0 xxxxxx'}2、多个请求随机切换User-Agent 1、定义列表存放大量User-Agent,使用random.choice()每次随机选择 2、定义py文件存放大量User-Agent,使用random.choice()每次随机选择 3、使用...原创 2020-04-14 16:47:13 · 442 阅读 · 0 评论 -
电影天堂二级页面抓取案例
# 地址电影天堂 - 2019年新片精品 - 更多# 目标电影名称、下载链接# 分析*********一级页面需抓取*********** 1、电影详情页链接 *********二级页面需抓取*********** 1、电影名称 2、电影下载链接实现步骤1、确定响应内容中是否存在所需抓取数据2、找URL规律第1...原创 2020-04-09 22:30:17 · 44209 阅读 · 0 评论 -
猫眼电影top100抓取案例
猫眼电影 - 榜单 - top100榜电影名称、主演、上映时间数据抓取实现1、确定响应内容中是否存在所需数据右键 - 查看网页源代码 - 搜索关键字 - 存在!!2、找URL规律第1页:https://maoyan.com/board/4?offset=0第2页:https://maoyan.com/board/4?offset=10第n页:offset=(n-1)*10...原创 2020-04-09 22:29:11 · 1317 阅读 · 0 评论