python从入门到放弃篇41(selenium库,requests库,lxml库,time库,os模块,jieba库,pyecharts库)实现爬取书籍信息,并进行可视化(转载)

我们这次的案例网址是:https://book.douban.com/tag/%E7%BC%96%E7%A8%8B。
最近在研究爬虫和数据可视化的结合,所以,时间上分配的有点不太宽裕。

爬虫部分的完整代码:

from selenium import webdriver
from lxml import etree
import requests
import time
import os

options = webdriver.ChromeOptions()
options.add_argument(’–headless’)
options.add_argument(’–disable-gpu’)
driver = webdriver.Chrome(options=options)

headers = {
‘user-agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36 Edg/84.0.522.52’
}
url = ‘https://book.douban.com/tag/%E7%BC%96%E7%A8%8B’
driver.get(url)

books = driver.find_element_by_xpath(’//*[@id=“content”]/div/div[1]’).text
#print(books)
with open(‘example_book.txt’,‘a’,encoding=‘utf-8’) as f:
f.write(books)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
运行结果,去编辑器路径下面找到文件打开:
在这里插入图片描述
接着,我们就要用jieba库(第三方库),来进行分词,分词后进行词频统计,所以有:

import jieba
txt = open(“D:/pycharm_project/example_book.txt”,“r”,encoding=“utf-8”).read()
words = jieba.lcut(txt,cut_all=True)
counts = {}
py_num = 0
book_num = 0
computer_num = 0
board_num = 0
for word in words:
if len(word) == 1:
continue
elif word == “python编程” or word == “python”:
word1 = “python”
py_num += 1
counts[word1] = py_num
elif word == “本书” or word == “书”:
word2 = “书”
book_num += 1
counts[word2] = book_num
elif word == “计算机” or word == “算法”:
word3 = “计算机”
computer_num += 1
counts[word3] = computer_num
elif word == “出版社” or word == “出版”:
word4 = “出版”
board_num += 1
counts[word4] = board_num
else:
continue

print(counts)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
结果:
在这里插入图片描述
然后,我们再做修改,得到如下结果,这样我们就完成了分词和词频统计。
在这里插入图片描述
接下来就是数据可视化部分了。我们要用到pyecharts库(要在联网情况下操作)和OS系统模块来创建文件夹存放HTML文件,所以有:

from pyecharts.charts import Bar
import os
B = Bar()
B.add_xaxis([‘出版’,‘书’,‘计算机’])
B.add_yaxis(‘词语出现次数’,[42,13,19])
os.mkdir(‘E:/Example’)
B.render(‘E:/Example/豆瓣图书爬取可视化.html’)

我们现在去E盘的Example目录下面打开,效果如下:
在这里插入图片描述
在这里插入图片描述
这次案例还可以,第一次做全套,从数据爬取,到数据预处理,再到数据可视化,觉得还是很有收获的,pyecharts库很不错,这将是我陷入pyecharts不能自拔的开始!!

最后,感谢大家前来观看鄙人的文章,文中或有诸多不妥之处,还望指出和海涵。

原文链接:https://blog.csdn.net/weixin_43408020/article/details/107848326?utm_medium=distribute.pc_feed.none-task-blog-personrec_tag-7.nonecase&depth_1-utm_source=distribute.pc_feed.none-task-blog-personrec_tag-7.nonecase&request_id=5f2f14878c9fb674c67238a9

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值