![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python,数据分析
isbndyy
这个作者很懒,什么都没留下…
展开
-
对医疗数据进行分词的尝试(2)
通过对不同分词器以及建立用户和停用词字典的尝试,发现如果想要将所需要的词全部提取出来,必须建立非常完备的字典,但是,这个字典的建立需要耗时耗力,考虑到时间和人力问题,这个选择只能暂时靠边边了。因此,基于hanlp的词性以及依存句法来对医疗数据进行分词,从而提取其中的相关术语:第一步是基于词性,对其中的部分词性进行剔除,并保留一些词性组合:def extract_hanlp(text)...原创 2020-03-10 14:33:40 · 1245 阅读 · 0 评论 -
对文本相似性的尝试二三事
通过查看已有模型可以看出,已经将出现频率小于5次的词语进行了剔除因此,在放入实际数据进行计算相似度的时候,很多文本在语料库里面都是没有的这就造成了结果的缺失这种时候,可以选择word2vec的增量训练,也可以选择对输出结果手动增量训练code:model_test.build_vocab(sentences_cut,update=True) #update = True ...原创 2020-01-17 14:58:47 · 173 阅读 · 0 评论 -
对医疗数据进行分词的尝试(1)
最近 手上拿到一些关于医疗的数据来进行分词,期望得到的结果是将药品,病症(包含'前期','中期','是否转移'等字样)作为关键词提取。首先尝试使用了常见的jieba分词,但是对于药品名称和病症并不能分出来,比如奥硝唑分散片转移性胰腺癌 等类似名词通过查找资料使用pkuseg进行分词,并且调用它自带的 medicine模型segcut = pkuseg.pkuseg(model_na...原创 2020-01-14 13:42:18 · 1782 阅读 · 2 评论 -
利用Python进行数据分析 笔记4
MovieLens 1M数据集GroupLens Research采集了一组从20世纪90年末到21世纪初由MovieLens用户提供的电影评分数据。这些数据中包括电影评分、电影元数据(风格类型和年代)以及关于用户的人口统计学数据(年龄、邮编、性别和职业等)。基于机器学习算法的推荐系统一般都会对此类数据感兴趣。MovieLens 1M数据集含有来自6000名用户对4000部电影的100万条原创 2017-03-28 13:32:04 · 588 阅读 · 0 评论 -
利用Python进行数据分析 笔记1
第二章 引言来自bit.ly的1.usa.gov数据(注:这里的代码是在pylab中写的,在GUI中写的结果是一样的。关于路径问题,一开始卡住了,后来发现是自己的问题,没有把路径写全,格式也不正确。)以每小时快照为例,文件中各行的格式为JSON(即JavaScript Object Notation,这是一种常用的Web数据格式)。例如如果我们只读取某个文件的第一行,那么你所看到的结果原创 2017-03-25 16:46:20 · 503 阅读 · 0 评论 -
利用Python进行数据分析——笔记2
用纯Python代码对时区进行计数(注:原来使用pylab输入代码,不太方便,就换成了Pycharm编辑器)假设我们想要知道该数据集中最常出现的是哪个时区(即tz字段),得到答案的办法有很多。import jsonpath ='G:/python/pydata-book-master/ch02/1.txt'records=[json.loads(line) forline原创 2017-03-26 15:18:36 · 352 阅读 · 0 评论 -
利用Python进行数据分析 笔记3
用pandas对时区进行计数DataFrame是pandas中最重要的数据结构,它用于将数据表示为一个表格。从一组原始记录中创建DataFrame是很简单的:from pandas importDataFrame,Seriesimport pandas aspd;import numpyas npframe = DataFrame(records)print fra原创 2017-03-27 11:44:51 · 356 阅读 · 0 评论 -
虚拟机下安装tensorflow
参考: http://wiki.jikexueyuan.com/project/tensorflow-zh/get_started/os_setup.htmlAnaconda安装anaconda可以从其官网下载,但是速度比较慢。 清华大学提供了镜像,从这个镜像下载速度很快,地址: https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/ 直接从上转载 2017-06-05 11:20:49 · 649 阅读 · 0 评论