![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据预处理
有梦想有行动
生命的轨迹会沿着你期望的方向走去
展开
-
字符串(txt存储形式)转化为字典
我的本文存储格式是txt我想把"text"的值取出来,然后加以处理,也就需要把字符串转化为字典,直接上代码#-*-coding:utf-8-*-import jsonf = open("data1.txt",encoding='utf-8')line = f.readline()while line: #dump将字符串转换成字典 print(line) line = json.dumps(line) d1=json.loads(line) print(原创 2020-09-15 08:48:28 · 1942 阅读 · 0 评论 -
按某一列的数据进行分组
我的目标是把csv文件中的某一列按类别同时自动拆分文件,按照一个特定类别输出文件。废话不多说上代码import pandas as pd#read data from csvdf=pd.read_csv('bilibili(2).csv',sep=',',engine='python',header=[1,2],encoding="UTF-8")# get the columns of dfdf.columns = ['title', 'type']c = list(df.columns)原创 2020-08-20 10:53:03 · 1821 阅读 · 0 评论 -
word2Vec训练中文模型
本以为so easy,结果搞了一天,记录一下,方便以后回顾,如果能帮到你那最好了!1.准备数据与预处理首先需要一份比较大的中文语料数据,我用的 中文维基百科.中文维基百科的数据不是太大,xml的压缩文件大约1G左右。首先用 process_wiki_data.py处理这个XML压缩文件,执行python process_wiki_data.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text以下是代码:process_wiki_data.py原创 2020-08-10 19:23:23 · 3401 阅读 · 1 评论 -
结巴分词之用户自定义词典的使用
jieba 分词简介:jieba 对于一长段文字,其分词原理大体可分为三部:1.首先用正则表达式将中文段落粗略的分成一个个句子。2.将每个句子构造成有向无环图,之后寻找最佳切分方案。3.最后对于连续的单字,采用HMM模型将其再次划分。三种分词模式:精确模式:试图将句子最精确地切开,适合文本分析;全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词;添加用户定义词典很多时候我们需要原创 2020-08-07 20:07:35 · 3758 阅读 · 1 评论