![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python爬虫学习笔记
早睡身体好_
这个作者很懒,什么都没留下…
展开
-
Python爬取京东商品评论(三)
本篇用作前两篇的首尾,并解决最后一个问题。 第一篇中我介绍了Python爬虫的基本语法,介绍了如何分析页面、如何分析json文件,并将爬取评论的基本功能实现了,是最初的版本。链接:Python爬取京东商品评论(一) 第二篇中我对第一篇的程序进行了大量的修改,改进了数据量、自动化等问题,对程序代码进行了整理,程序功能已经比较完整且稳定。链接:Python爬取京东商品评论(二) 本篇解决第二篇中的一个遗留问题,即自动获取不同配色的手机的商品代...原创 2020-05-09 13:09:35 · 3059 阅读 · 4 评论 -
Python爬取京东商品评论(二)
上一篇博客中简单实现了京东商品评论的爬虫(Python爬取京东商品评论),由于这个爬虫是我毕设的一部分,所以我需要对这个程序做一些补充,上一篇的程序中有许多不足的地方,下面我逐个解决。 1、首先是评论页数的问题。上一个程序中我是通过手动输入要爬取的评论页数来控制程序,但是由于各个商品的评论页数无法确定,所以我们首先要实现程序自动获取评论页数的功能。 ...原创 2020-03-23 18:47:01 · 8841 阅读 · 10 评论 -
Python爬取豆瓣电影短评
豆瓣是比较难爬取的网站之一,主要因为豆瓣默认如果不登录账号的话只能爬取10页的评论。所以我就带着cookie去爬取,而且设置了一个用户代理池,尽可能的伪装成浏览器。然而当我爬了三四次,一共几十页评论之后的第二天,我的豆瓣账号就被封了。。。 还是老规矩,F12审查元素,点击network并刷新页面,然后惊人的发现json文件中没有找到有关评论的信息。豆瓣的影评没有存...原创 2020-03-15 22:16:50 · 2571 阅读 · 1 评论 -
Python爬取NBA每日比赛比分
自从学会了爬虫的基本用法之后,一些网页上的基本信息都可以很容易的爬取下来。今天练习爬取了腾讯NBA官网上的每日赛程的比分,就是这个: 这个网站的信息同样是存储在json文件中,在其HTML静态文件中找不到。所以我们还是老方法,直接去找到那个json文件: 在使用Python工具爬取下来这一页后,再观察其中的信息。通常这种json文件的字典...原创 2020-03-11 16:00:11 · 1710 阅读 · 0 评论 -
Python爬取CSDN文章评论
最近在学习Python爬虫,但没有什么完整的学习路线,就通过一些比较简单的小实例来积累经验,毕竟是为了毕设而已。上次爬取了京东的商品评论(京东),这次来试着爬取CSDN的文章评论。 以前爬取过CSDN文章的名字和阅读数,这些信息是存在静态网页中的,直接将页面get下来就可以提取出这些简单的信息。但是评论这种信息一般都存放在json文件中,通过ajax来控制,在静态...原创 2020-03-05 22:00:10 · 455 阅读 · 0 评论 -
Python爬取京东商品评论
京东商城的页面不是静态页面,其评论信息存放于json文件中,由ajax控制,所以我们在浏览器上看到的网页源代码和用Python爬下来的是不一样的,所以我们真正要爬取的是评论数据所存放的json文件。 首先打开一个京东商品的评论页面,按F12。然后点击network之后再刷新一次页面,会显示如下信息。 在所有的json文件中找到那个存放评论的文...原创 2020-03-04 21:31:29 · 8409 阅读 · 7 评论