文本分类
小糖姜爱学习
这个作者很懒,什么都没留下…
展开
-
python将csv文件转化成txt
import pandas as pdimport osdata = pd.read_csv('news_data.csv', encoding='utf-8')with open('news_data.txt','a+', encoding='utf-8') as f: for line in data.values: f.write((str(line[0]...原创 2019-11-01 09:50:07 · 22710 阅读 · 5 评论 -
wps中将文档的下一节与本节页眉页脚改为不同的方法
1、启动wps文档,定位本页的最后,页面布局功能区→分隔符→下一页分节符;2、定位到下一页的页脚,鼠标双击,功能区显示页眉和页脚,将同前节取消(也就是说当前页与前一页设置不一样),插入页码根据实际需求将应用范围为本页或本页及之后,勾选重新开始编号。就实现了将文档的下一节与本节页眉页脚不同。3、wps文档中可以通过以上设置方法能快速设置当前页与前后页之间的页眉页脚是否相同,以满足实际...原创 2019-10-27 21:16:33 · 1799 阅读 · 0 评论 -
分词用结吧分词器原因
1、中文分词技术是中文自然语言处理的第一项核心技术,在语言理解中,词是最小的语言成分,分词处理过程通过计算机将句子转化为词的表示。自中文自动分词技术被提出以来,目前已经出现了很多方法,可主要归纳为规则分词、统计分词和混合分词三类主要方法。(1)基于规则的分词是一种机械分词方法,主要是通过维护词典,在切分语句时将语句的每个字符串与词表中的词进行逐一匹配,找到则切分,否则不予切分。按照切分方式...原创 2019-10-19 21:24:31 · 388 阅读 · 0 评论 -
python对列表中的元素进行去重操作
1.案例要求:"""有列表:["a","a","a","b","b","c","d","d","f"],要求去除重复的列表数据,达到效果["a","b","c","d","f"]"""2.案例分析:(1)集合可以去重,列表转为集合,再转回列表。隐患:集合无序,索引会变。(2)第一步:引入一个临时空列表,遍历元素列表,如果元素不在临时列表,就加到临时列表,如果临时列表已经有该元素...转载 2019-10-09 09:17:12 · 527 阅读 · 0 评论 -
划分数据集train_test_split参数含义
在使用sklearn进行数据集划分时,代码from sklearn.model_selection import train_test_splitx_train,x_test,y_train,y_test = train_test_split(df_train['contents_clean'].values, ...原创 2019-09-01 19:37:04 · 1582 阅读 · 1 评论 -
sklearn调用朴素贝叶斯报错dimension mismatch
fit、transform、fit_transform区别fit():就是求得训练集的均值,方差,最大值,最小值,这些训练集的固有属性。transform():在fit的基础上,进行标准化,降维,归一化等操作。fit_transform():fit_transform是fit和transform的组合,既包括了训练又包含了转换。transform()和fit_transform()二者的功能...原创 2019-07-22 16:44:30 · 1702 阅读 · 0 评论 -
贝叶斯新闻分类(二)
前面(一)中用一种简化的方式是直接使用TfidfVectorizer来生成TF-IDF向量,这里我们按照一般的方式将生成TF-IDF向量分成两个步骤:1.生成词频向量. 2.生成TF-IDF向量。最后我们开始训练我们的MultinomialNB分类器。TfidfVectorizer将原始文档的集合转换为tf - idf特性的矩阵 ,相当于CountVectorizer配合TfidfTran...原创 2019-07-22 16:03:32 · 215 阅读 · 0 评论 -
贝叶斯新闻分类(一)
(一)读入数据df_news = pd.read_csv('news_data.csv', encoding='utf-8')df_news=df_news.dropna()# print(df_news.shape)# print(df_news.head())content=df_news.content.values.tolist()#df_news的content列...转载 2019-07-22 15:47:35 · 594 阅读 · 0 评论 -
TfidfVectorizer参数解析
vectorizer = TfidfVectorizer(stop_words=stpwrdlst, sublinear_tf=True, max_df=0.5) ''' 关于参数: stop_words: 传入停用词,以后我们获得vocabulary_的时候,就会根据文本信息去掉停用词得到 vocabulary: vocabulary...原创 2019-08-06 21:19:40 · 6206 阅读 · 0 评论 -
关键词提取
#使用jieba 和 sklearn都可以进行关键词提取import jieba.analyseindex=2400print(df_news['content'][index])# str.join(sequence) sequence中用str连接content_S_str=''.join(content_S[index])#jieba.analyse.extract_tags...转载 2019-07-23 19:50:38 · 229 阅读 · 0 评论