北邮数据挖掘与数据仓库——文本分类实验（一）

最新推荐文章于 2023-01-08 18:53:02 发布

CoffeeMore

最新推荐文章于 2023-01-08 18:53:02 发布

阅读量1.8k

点赞数 4

分类专栏：数据挖掘文章标签：数据挖掘文本分类爬虫

本文链接：https://blog.csdn.net/qq_32818835/article/details/84581947

版权

该博客介绍了北邮数据挖掘与数据仓库课程的一个实验，涉及收集10类各100000条文本数据，总计100万条，使用朴素贝叶斯或SVM进行文本分类。作者通过爬虫从新浪、中国新闻网等网站获取军事、汽车等10类新闻，并用pynlpir进行分词，sklearn计算tf-idf。分享了爬虫代码结构，包括items.py定义数据结构，pipelines.py处理存储，以及game.py中的游戏类新闻爬取程序。

摘要由CSDN通过智能技术生成

北邮数据挖掘与数据仓库——文本分类实验（一）

实验要求：收集10类文本，每类文本包含100000，总计100万条数据，利用朴素贝叶斯或SVM进行文本分类。

收集数据（爬虫）
利用中科院分词工具pynpir分词
利用sklearn计算单词的tf-idf
利用朴素贝叶斯进行文本分类

收集数据（爬虫）
由于新闻类的实验数据比较容易收集，我们就从各大新闻网站如新浪，中国新闻网等爬取了十类文本数据，分别是军事、汽车、金融、教育、游戏、健康、IT、体育、娱乐、时尚十类新闻文章，爬取的每一类数据多余10万，因为我们自己利用scrapy框架写的爬虫程序执行效率比较差，且有的新闻文章正文内容比较有限，分词后不能确定是否还有数据保留下来。
以下是爬虫代码：
-------items.py，
对每一类新闻定义了一个类，爬取的数据包括标题，URL，以及正文内容。

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class SportsItem(scrapy.Item):
    title = scrapy.Field()
    link = scrapy.Field()
    content = scrapy.Field()
    pass
class EconomyItem(scrapy.Item):
    title = scrapy.Field()
    link = scrapy.Field()
    content = scrapy.Field()
    pass
class PoliItem(scrapy.Item):
    No = scrapy.Field()
    title = scrapy.Field()
    link = scrapy.Field()
    content = scrapy.Field()
class CultureItem(scrapy.Item):
    No = scrapy.Field()
    title = scrapy.Field()
    link = scrapy.Field()
    content = scrapy.Field()
class EduItem(scrapy.Item):
    No = scrapy.Field()
    title = scrapy.Field()
    link = scrapy.Field()
    content = scrapy.Field()
class ArmyItem(scrapy.Item):
    No = scrapy.Field()
    title = scrapy.Field()
    link = scrapy.Field()
    content = scrapy.Field()
class SciItem(scrapy.Item):
    No = scrapy.Field()
    title = s

最低0.47元/天解锁文章

CoffeeMore

关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
北邮数据挖掘与数据仓库——文本分类实验（一）

北邮数据挖掘与数据仓库——文本分类实验（一）实验要求：收集10类文本，每类文本包含100000，总计100万条数据，利用朴素贝叶斯或SVM进行文本分类。收集数据（爬虫）利用中科院分词工具pynpir分词利用sklearn计算单词的tf-idf利用朴素贝叶斯进行文本分类收集数据（爬虫）由于新闻类的实验数据比较容易收集，我们就从各大新闻网站如新浪，中国新闻网等爬取了十类文本数据，分别...
复制链接

扫一扫

专栏目录