Python一键爬取你所关心的书籍信息_python douban subject_search(1)

本文介绍了使用Python进行书籍信息爬虫的方法,包括利用requests和XPath解析豆瓣图书页面,提取书名、作者、评分、出版社等信息,并进行了基础的数据统计和分析。同时,也提到了学习Python的路径和资源推荐,强调了系统化学习和社群支持的重要性。
摘要由CSDN通过智能技术生成

返回json可以用的属性有:title:书名、url:对应书的豆瓣页面、pic:书封面图资源位置等。如果上面的输入咱们只有书名,就根据书名和返回的json对应,如果有作者、出版年份等属性,就可以更好的核对是否是我们要找的书,为了简化,下面只用了返回json数据的第1条。

基本代码

根据返回的url就可以从这个url去定位我们需要爬的信息。走通了就可以正式写代码了,以下代码采用jupyter notebook的组织方式,也就是切分得比较细。先引入所需库:

读取书名Excel数据,只用了"书名"列,先不考虑其他列

对书名列表进行循环,得到的属性用字典装着,每本书的属性是一个字典,用列表装各个字典

通过requests.get(‘https://book.douban.com/j/subject_suggest?q={0}’.format(bn))获取搜索建议返回的json数据,其中bn是书名字符串。

爬虫的一般解析是用BeautifulSoup或xpath,我更喜欢用xpath,因此下面的代码主要基于xpath解析文本。

以评分为例,鼠标点击评分部分,然后按Ctrl+Shift+I,或者右键点击检查元素,反正就是定位到评分对应的HTML上,定位到评分的代码部分后,右键,选择Copy->Copy XPath,例如对于评分来说有:

//*[@id=“interest_sectl”]/div/div[2]/strong。

图4,复制评分的xpath

通过con.xpath(‘//*[@id=“interest_sectl”]/div/div[2]/strong/text()’)就可以得到评分数据,返回的是列表,一般就是第0个值。同样,其他地方也是这样,而作者、出版社那几个属性是结构比较散的,需要特殊处理。

图5,自由度较大的书目信息部分

通过//*[@id=“info”]/span[2]可以确定 出版社 这个属性,但是属性的值,具体是哪个出版社不能确定,这些文字是在info这个节点上的。对于这种长度不定的一个html区域,不能写死xpath解析式,需要理清其HTML树结构,建立info的树结构。通过分析几个具体的页面的info部分,建立树结构如下:

图6,info部分的HTML树

需要得到的是{'出版社’:‘中信出版集团’}这样的数据,通过HTML树结构可以看到的特征是键(如出版社)在span里,值可能在text里,也可能封装在span里的子元素里,反正每个键值对之后都有一个br去切分。考虑这些情况写出的代码如下:

为了在大循环里好调用,上面的部分封装成函数,调用getBookInfo()返回的是一个字典,要整合到已有的字典里。涉及字典的组合,查了一下可以用d=dict(d,**dw),其中d是旧字典,dw是要加到d里的新字典,更简便的方式是用d.update(dw)函数,下面的代码就是用的update的。

主循环代码:

图7,爬到的数据概览

基础数据统计分析

我们开始时读入的bsdf有书名、作者、阅读时间等属性,因为爬下来的数据可能会有缺失值,将两个表合并起来进行分析。分析的维度有书名、作者、阅读时间、出版社、页数等。首先是用merge整合两表然后看一些基本的统计量。

输出是一共有421本书,309个作者,97个出版社;

我们就来看看前几位的作者和出版社,通过

bdf[‘作者’].value_counts().head(7)可以输出前7位书单里出现最多的作者,出版社同理,结果如下:

图8,出版社和作者统计

从作者出现次数来看,前6位都是小说类型的书,可以看一下吴军的是哪些书:

图9,每月阅读数量_时间轴折线图.png

好奇不同年份每个月是否有一定规律呢。要统计这个比较方便的就是用数据透视表了,pandas里的pivot_table出场。

图10,每月阅读数量_按年统计

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

img
img

二、Python必备开发工具

工具都帮大家整理好了,安装就可直接上手!img

三、最新Python学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

img

四、Python视频合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

img

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。img

六、面试宝典

在这里插入图片描述

在这里插入图片描述

简历模板在这里插入图片描述

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里无偿获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
再深入研究,那么很难做到真正的技术提升。**

需要这份系统化学习资料的朋友,可以戳这里无偿获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 5
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
好的,这是一个很有趣的问题,我可以为您提供一些 Python 爬取豆瓣电影短评数据并进行词云分析处理的方法,以下是具体步骤: 1. 安装必要的库 需要安装 requests, BeautifulSoup, wordcloud, jieba 等库,可以使用 pip 安装。 2. 获取豆瓣电影的短评数据 使用 requests 库获取电影的页面源代码,然后使用 BeautifulSoup 库解析 HTML 页面,找到短评的标签和类名,获取短评的文本信息。 3. 对短评数据进行分词和处理 使用 jieba 库对短评进行分词,去除停用词和无用符号,并统计词频。 4. 生成词云图 使用 wordcloud 库生成词云图,将分词处理后的结果输入 wordcloud.WordCloud() 函数,设置好字体、背景颜色、词云形状等参数,调用 generate_from_frequencies() 函数生成词云图。 以上是简单的流程,具体的代码实现可以参考以下示例代码: ```python import requests from bs4 import BeautifulSoup import jieba import wordcloud # 请求头信息 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} # 短评数据的URL url = 'https://movie.douban.com/subject/1292052/comments?start=0&limit=20&sort=new_score&status=P' # 获取电影的页面源代码 html = requests.get(url, headers=headers).text # 使用BeautifulSoup解析HTML页面 soup = BeautifulSoup(html, 'html.parser') # 获取所有短评 comments = soup.find_all('span', 'short') # 将短评文本拼接成一个字符串 text = '' for comment in comments: text += comment.get_text() # 对文本进行分词 words = jieba.cut(text) # 去除停用词和无用符号 stopwords = ['的', '了', '是', '我', '你', '他', '她', '我们', '你们', '他们', '这', '那', '还', '就', '和', '也', '不', '在', '有', '到', '个', '了', '啊', '呢', '吧', '哦', '嗯', '哈', '呀', '嘛', '了', '吗'] filtered_words = [] for word in words: if word not in stopwords and word.strip() != '': filtered_words.append(word) # 统计词频 word_count = {} for word in filtered_words: if word not in word_count: word_count[word] = 1 else: word_count[word] += 1 # 生成词云图 wc = wordcloud.WordCloud( font_path='simhei.ttf', background_color='white', width=800, height=600, max_words=200, max_font_size=100, random_state=30, ) wc.generate_from_frequencies(word_count) # 展示词云图 import matplotlib.pyplot as plt plt.imshow(wc, interpolation='bilinear') plt.axis('off') plt.show() ``` 这样就可以爬取豆瓣电影的短评数据并进行词云分析处理了。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值