- 博客(3)
- 收藏
- 关注
原创 爬虫:新浪财经上市公司研报核心观点摘要爬取
我们主要用到的最基本的爬虫库包括爬虫requests和解析库BeautifulSoup。我们先将主页中的所有研报链接全部获取下来,我们来观察一下网页。我们发现主页下面还有很多分页,我们依次点击第2页和第3页来看看主页的网页链接变化有什么特征。第2页:第3页:我们发现参数p会对应着页数发生变化,而每一页都是40个研报。#导入爬虫分析库#获取网页print(res.encoding)#是respose返回内容的编码,与网页编码不符时出现乱码。
2023-11-07 23:29:34 1261
原创 基于jieba库的上市公司数字化转型指标构建
jieba库是用于中文文本分词的第三方库,例如将“每个人都很爱自己的国家“这句话进行分词,分词的结果为[每个人,都,很,爱,自己,的,国家],进而方便我们进行文本的词频统计。
2023-10-19 18:44:21 116 1
新浪财经研报摘要核心内容批量爬取
2023-11-17
百度指数爬虫程序,通过传入登陆百度指数网页之后,输入网页中的cooki序列和想要查询的关键词即可获得想要时间段的关键词搜索数量
2023-11-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人