a602232180-CSDN博客

原创 python list内前k个最大值与对应的索引非重复

函数def maxk(arraylist,k): ''' 前k个的索引 ''' maxlist=[] maxlist_id=range(0,k) m=[maxlist,maxlist_id] for i in maxlist_id: maxlist.append(arraylist[i]) for i in r...

2019-04-23 15:36:08 2588

原创 gensin.lda/lsi + sklearn 文本分类

使用gensim内LDA与LSA训练文本，将其中的docment_topc矩阵信息作为原始矩阵进行分类。我自己选的数据是知网的几千篇摘要，都是计算机大类别下的文档，类别比较模糊，只做了个分词处理。以俩空格‘ '作为分隔符保存。最终分类准确率肯定没有那些类别明显的高（sogo）import osimport refrom gensim import models,corporast...

2018-07-17 14:05:45 2133 4

原创 python 读文件，首行出现前缀‘\ufeff‘

python3读文件时，第一行莫名其妙的出现了’\ufeff‘前缀查看原始文件，刚开始根本没有这个，在读文件时，想原来的.stip() 替换为 .encode('utf-8').decode('utf-8-sig').strip()utf-8编码的txt文件时开头会有一个多余的字符\ufeff，在读文件时会读到\ufeff，通过编码encode('utf-8')与解码decode('utf-8-s...

2018-07-11 10:38:51 2532

原创 urllib2 爬虫打印页面内容，部分无法显示

爬了一下起点小说网的内容，结果发现打印页面内容时丢失了部分内容这个是我的代码import reimport urllib2user_agent ='Mozilla/5.0 (Windows NT 10.0; WOW64; rv:49.0) Gecko/20100101 Firefox/49.0' headers = { 'User-Agent':user_agent}url

2018-01-06 18:00:32 1242

转载爬虫，爬糗百热门段子

想爬东西，必须熟悉正则啊，换行的 /s ,任意字符的 . 。先打开网页：url = 'http://www.qiushibaike.com/hot/page/' + str(page) user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' headers = { 'User-Agent' : user_a

2018-01-05 10:24:33 479

原创 python2 读取文件TXT编码问题

读取文件：open("test.txt","r")文件建议另存为UTF-8格式，字打印出来是“u'\u6c49'” “就是unicode编码（python里面报的ASCII）；”\xe6\xb1\x89“ 是utf-8 编码，printf 输出就是正常汉字了，若还是打印这个，就需要将LIST里for循环打印utf-8编码的汉字len()，单个字符长度是3；unicode len()

2017-11-20 21:52:49 3307

原创 lda+word2vec 主题模型结合深度学习

最近硕士毕业小论文想写LDA结合深度学习的，论文看来看去，看的头大，也没什么好的创新点，杂七杂八小的创新带你想了一大堆，要么自己给否了，要么后来在看论文的时候发现写过了（那么LOW的点也能写），想写个差不多的’有价值意义的创新点，结果想来想去想着头大，就继续看论文。言归正传，看了大几十篇外文文献了（外文的闻起来就厉害，实际上好的也没几个），结合点就一两个有价...

2017-11-20 21:32:19 18947 30

转载用gensim.doc2vec 建模、利用相似度做文本分类

想看看doc2vec的效果怎么说，按照基于gensim的Doc2Vec简析上面的实验做了下，发现用随机森林做的模型，二分类的准确率50%，换sklearn的KNN，分类结果也是50￥上下。看了半天觉得过程什么的没什么错误，之后就又参考了情感分析利器——Doc2vec ’两个意思差不多。最后利用模型，在随便调参的情况下，分类准确率95%+。效果总算令人满意。代码如下：（过程懒得精简了

2017-11-20 21:04:31 6009 13

转载 gensim-lda

按着原地址敲了下，基本上实现了，小霸王笔记本运行了半天。我自己的数据来源；数据，上传还必须要下载分。联系QQ602232180，我这里有完整代码：(就用了一个C000008数据做)import codecsfrom gensim import models,corpora,similaritiesfrom gensim.models.doc2vec import TaggedD

2017-11-07 16:02:34 661 1

转载 redhat下的 cpu-tensorflow安装及远程开启notebook

tensorflow实战上面用的系统是ubuntu的系统，但是有人说红帽的系统运行速度更快，so就跑到红帽上面了，都是linux吗，感觉都差不多吧。安装的过程就是按照《tensorflow实战》这本书上一步步走的，但是问题也有几个，对于我这linux菜鸟查了半天博客。下载anaconda3 4.2.0 去官网上找，只发现了最新的 anaconda5.0.0 最新版本，担心

2017-10-26 16:21:36 460

原创 VM安装Ubuntu卡在open-vm-tools 及tensorflow

系统:ubuntu-16.10-desktop-amd64.iso一直点下一步，最后一步不选择安装完成后自动开启虚拟机，否则很可能会卡在open-vm-tools处目前的解决方式：1、编辑配置文件 (.vmx)2、增加一行 cpuid.1.eax = "0000:0000:0000:0001:0000:0110:1010:0101"3、保存配置文件4、启动虚拟机或者换虚拟机

2017-07-07 20:19:46 15862 1