漫鱼

计科专业大学生

python3抓取猫眼电影(正则表达式)

requests + 正则抓取猫眼电影top列表 分析页面:http://maoyan.com/board/4 目标获取电影标题,演员,上映时间,评分,存到文件里 可以直接在页面中找到电影标题,评分等信息,并且在对应的标签里,可以用bs库抓,或者用正则表达式进行抓取。而排行榜一共有1...

2018-01-28 15:03:00

阅读数:296

评论数:0

python3爬取今日头条(模拟ajax请求)

分析动态页面,模拟ajax请求,爬取街拍美图 分析页面:https://www.toutiao.com/search/?keyword=%E8%A1%97%E6%8B%8D 右击页面查看源代码,并没有发现每个文章或者是图片的踪迹,那肯定是异步加载啦。打开network监视窗,刷新一下页面,找到...

2018-01-27 21:42:14

阅读数:3541

评论数:0

python3爬取百度百科

爬取百度百科词条并存入mysql 目标是从一个百度百科链接进去,从当前页面寻找所有内链(跳转到当前网站的其他词条),随机挑选一个进入,并重复上述循环 在每个页面里只爬 h1 标题和下面的一段简介 准备工作: 数据库需要三个字段,id,标题,内容 数据库一定要在建立的时候加...

2018-01-26 22:58:08

阅读数:557

评论数:0

python3爬取淘女郎图片

selenium+chrome 爬取淘女郎页面 分析https://www.taobao.com/markets/mm/mmku 这个页面,右键查看网页源代码搜索 img 竟然找不到图片标签,可以猜测是ajax异步加载,所以爬取页面难度升级了,目前有两种方法 分析网页请求,写接口来处理 利用...

2018-01-26 22:31:22

阅读数:304

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭