【爬虫+文本分类】--新浪各类新闻标题，并用各类算法进行文本分类

最新推荐文章于 2024-07-18 17:01:30 发布

Clairezcy

最新推荐文章于 2024-07-18 17:01:30 发布

阅读量4k

点赞数 4

分类专栏： NLP 爬虫文章标签： python 机器学习深度学习自然语言处理分类算法

本文链接：https://blog.csdn.net/Clairezcy/article/details/104360751

版权

本文介绍了一个结合爬虫和文本分类的小项目，爬取新浪六类新闻标题，使用朴素贝叶斯、SVM、CNN和LSTM等算法进行分类。在数据处理中涉及词向量的生成，包括TF-IDF、Tokenizer、one-hot和word2vec。实验结果显示TF-IDF与朴素贝叶斯组合在小样本数据上表现最佳。

摘要由CSDN通过智能技术生成

自己设计的小项目，初始想法很简单，检验自己爬虫和nlp基本技能（分词、词向量（tokenize\onehot\tfidf\word2vec））和各类算法（朴素贝叶斯、svm、CNN、LSTM）掌握情况，进一步查漏补缺，提升工程能力和算法应用能力：）
在这里插入图片描述
**

第一部分：爬虫

**
分析新浪网各类新闻网页结构，应用requests库，爬取并解析新浪各类新闻，包括汽车、教育、金融、娱乐、体育、科技共六类，
对于有“滚动”新闻链接的板块（如sport、tech、entertaimment），通过滚动新闻爬取数据：此类数据多为动态链接，需要异步加载，即自行分析json格式获取其中新闻url
对于没有“滚动”新闻链接的板块（如finance、edu、auto），通过层层解析各层banner,获取最终新闻url
爬取内容包括time,title,source,comments, 爬取后整理为‘title category’格式，每类新闻共爬取3000条标题样本
在这里插入图片描述
sinanews_all.py代码如下：