【爬虫+文本分类】--新浪各类新闻标题,并用各类算法进行文本分类

本文介绍了一个结合爬虫和文本分类的小项目,爬取新浪六类新闻标题,使用朴素贝叶斯、SVM、CNN和LSTM等算法进行分类。在数据处理中涉及词向量的生成,包括TF-IDF、Tokenizer、one-hot和word2vec。实验结果显示TF-IDF与朴素贝叶斯组合在小样本数据上表现最佳。
摘要由CSDN通过智能技术生成

自己设计的小项目,初始想法很简单,检验自己爬虫和nlp基本技能(分词、词向量(tokenize\onehot\tfidf\word2vec))和各类算法(朴素贝叶斯、svm、CNN、LSTM)掌握情况,进一步查漏补缺,提升工程能力和算法应用能力:)
在这里插入图片描述
**

第一部分:爬虫

**
分析新浪网各类新闻网页结构,应用requests库,爬取并解析新浪各类新闻,包括汽车、教育、金融、娱乐、体育、科技共六类,
对于有“滚动”新闻链接的板块(如sport、tech、entertaimment),通过滚动新闻爬取数据:此类数据多为动态链接,需要异步加载,即自行分析json格式获取其中新闻url
对于没有“滚动”新闻链接的板块(如finance、edu、auto),通过层层解析各层banner,获取最终新闻url
爬取内容包括time,title,source,comments, 爬取后整理为‘title category’格式,每类新闻共爬取3000条标题样本
在这里插入图片描述
sinanews_all.py代码如下:

评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值