Python
只要酸菜不要鱼
在读学生
展开
-
(六)文本挖掘——名词提取
# @Time : 2021/3/16 19:54# @Author : chao#名词提取from collections import Counterf1 = open(r'C:\Users\代码\去除停用词并分词\去除停用词并分词结果\zong_fengci_tingyongci2.txt', 'r', encoding='utf-8')#构建一个空列表,用以保存提取出的每个词words = []#构建一个空列表,用于保存提取出的名词ming_words = [原创 2021-05-29 21:13:50 · 1412 阅读 · 0 评论 -
(五)文本挖掘——词性标注
# @Time : 2021/3/8 20:04# @Author : chao#词性标注import jiebaimport jieba.posseg as psegjieba.load_userdict(r"C:\Users\代码\词典\out.txt")p = open(r"C:\Users\代码\去除停用词并分词\去除停用词并分词结果\zong_fengci_tingyongci2.txt", 'r', encoding = 'utf-8')q = open(r'原创 2021-05-29 21:12:53 · 357 阅读 · 0 评论 -
(四)文本挖掘——LDA主题提取
# @Time : 2021/3/11 15:20# @Author : chao# -*- coding: utf-8 -*-import pandas as pdimport numpy as npfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.decomposition import LatentDirichletAllocationdef txt_to_df(txt): cntV原创 2021-05-29 21:11:54 · 1104 阅读 · 0 评论 -
(三)文本挖掘——Word2vec
# @Time : 2021/3/27 14:45# @Author : chao#代码参考自:https://blog.csdn.net/weixin_45314989/article/details/104390725?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-0&spm=1001.2101.3001.4242#采用word2vec对分词后的文件进行训练,将每个词语映射到词向量空间import log原创 2021-05-29 21:11:08 · 529 阅读 · 0 评论 -
(二)文本挖掘——TF-IDF
# @Time : 2021/3/9 15:35# @Author : chao# -*- coding: utf-8 -*-import pandas as pdimport numpy as npimport jiebafrom sklearn.feature_extraction.text import TfidfTransformerfrom sklearn.feature_extraction.text import CountVectorizerdef seg_senten原创 2021-05-29 21:09:01 · 187 阅读 · 0 评论 -
(一)文本挖掘——去除停用词并分词
记录论文中使用到的文本挖掘代码(1)去除停用词并使用jieba进行分词# @Time : 2021/3/8 19:50# @Author : chao#去除停用词,并且进行分词import jiebastopwords_filepath = r"C:\Users\词典\stopword停用词.txt"jieba.load_userdict(r"C:\Users\\词典\out.txt")# 创建停用词listdef stopwordslist(stopwords_filepath):原创 2021-05-29 21:06:50 · 2248 阅读 · 1 评论 -
scrapy中使用正确的xpath出现空列表问题
今天在使用scrapy框架爬取网页时,使用正确的xpath来爬取时,爬取的缺失空列表,代码如下:# -*- coding: utf-8 -*-import scrapyclass HaodfSpider(scrapy.Spider): name = 'haodf' start_urls = ['http://bbs.tnbz.com/forum-6-2.html'] def parse(self, response): for item in respon原创 2020-06-02 21:23:00 · 2583 阅读 · 6 评论