自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (6)
  • 收藏
  • 关注

原创 python list内前k个最大值与对应的索引非重复

函数def maxk(arraylist,k): ''' 前k个的索引 ''' maxlist=[] maxlist_id=range(0,k) m=[maxlist,maxlist_id] for i in maxlist_id: maxlist.append(arraylist[i]) for i in r...

2019-04-23 15:36:08 2588

原创 gensin.lda/lsi + sklearn 文本分类

使用gensim内LDA与LSA训练文本,将其中的docment_topc矩阵信息作为原始矩阵进行分类。我自己选的数据是知网的几千篇摘要,都是计算机大类别下的文档,类别比较模糊,只做了个分词处理。以俩空格‘  '作为分隔符保存。最终分类准确率肯定没有那些类别明显的高(sogo)import osimport refrom gensim import models,corporast...

2018-07-17 14:05:45 2133 4

原创 python 读文件,首行出现前缀‘\ufeff‘

python3读文件时,第一行莫名其妙的出现了’\ufeff‘前缀查看原始文件,刚开始根本没有这个,在读文件时,想原来的.stip() 替换为 .encode('utf-8').decode('utf-8-sig').strip()utf-8编码的txt文件时开头会有一个多余的字符\ufeff,在读文件时会读到\ufeff,通过编码encode('utf-8')与解码decode('utf-8-s...

2018-07-11 10:38:51 2532

原创 urllib2 爬虫 打印页面内容,部分无法显示

爬了一下起点小说网的内容,结果发现打印页面内容时丢失了部分内容这个是我的代码import reimport urllib2user_agent ='Mozilla/5.0 (Windows NT 10.0; WOW64; rv:49.0) Gecko/20100101 Firefox/49.0' headers = { 'User-Agent':user_agent}url

2018-01-06 18:00:32 1242

转载 爬虫,爬糗百热门段子

想爬东西,必须熟悉正则啊,换行的 /s ,任意字符的 . 。先打开网页:url = 'http://www.qiushibaike.com/hot/page/' + str(page) user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' headers = { 'User-Agent' : user_a

2018-01-05 10:24:33 479

原创 python2 读取文件TXT编码问题

读取文件:open("test.txt","r")文件建议另存为UTF-8格式,字打印出来是“u'\u6c49'” “就是unicode编码(python里面报的ASCII);”\xe6\xb1\x89“ 是utf-8 编码,printf 输出就是正常汉字了,若还是打印这个,就需要将LIST里for循环打印utf-8编码的汉字len(),单个字符长度是3;unicode len()

2017-11-20 21:52:49 3307

原创 lda+word2vec 主题模型结合深度学习

最近硕士毕业小论文想写LDA结合深度学习的,论文看来看去,看的头大,也没什么好的创新点,杂七杂八小的创新带你想了一大堆,要么自己给否了,要么后来在看论文的时候发现写过了(那么LOW的点也能写),想写个差不多的’有价值意义的创新点,结果想来想去想着头大,就继续看论文。 言归正传,看了大几十篇外文文献了(外文的闻起来就厉害,实际上好的也没几个),结合点就一两个有价...

2017-11-20 21:32:19 18947 30

转载 用gensim.doc2vec 建模、利用相似度做文本分类

想看看doc2vec的效果怎么说,按照 基于gensim的Doc2Vec简析    上面的实验做了下,发现用随机森林做的模型,二分类的准确率50%,换sklearn的KNN,分类结果也是50¥上下。看了半天觉得过程什么的没什么错误,之后就又参考了情感分析利器——Doc2vec  ’两个意思差不多。最后利用模型,在随便调参的情况下,分类准确率95%+。效果总算令人满意。代码如下:(过程懒得精简了

2017-11-20 21:04:31 6009 13

转载 gensim-lda

按着 原地址 敲了下,基本上实现了,小霸王笔记本运行了半天。我自己的数据来源;数据,上传还必须要下载分。联系QQ602232180,我这里有完整代码:(就用了一个C000008数据做)import codecsfrom gensim import models,corpora,similaritiesfrom gensim.models.doc2vec import TaggedD

2017-11-07 16:02:34 661 1

转载 redhat下的 cpu-tensorflow安装及远程开启notebook

tensorflow实战上面用的系统是ubuntu的系统,但是有人说红帽的系统运行速度更快,so就跑到红帽上面了,都是linux吗,感觉都差不多吧。安装的过程就是按照《tensorflow实战》这本书上一步步走的,但是问题也有几个,对于我这linux菜鸟查了半天博客。下载anaconda3 4.2.0        去官网上找,只发现了最新的 anaconda5.0.0 最新版本,担心

2017-10-26 16:21:36 460

原创 VM安装Ubuntu卡在open-vm-tools 及tensorflow

系统:ubuntu-16.10-desktop-amd64.iso一直点下一步,最后一步不选择安装完成后自动开启虚拟机,否则很可能会卡在open-vm-tools处目前的解决方式:1、编辑配置文件 (.vmx)2、增加一行 cpuid.1.eax = "0000:0000:0000:0001:0000:0110:1010:0101"3、保存配置文件4、启动虚拟机或者换虚拟机

2017-07-07 20:19:46 15862 1

原创 LDA-inference

LDA 主体模型 及inference,并查看迭代过程的困惑度,简单利用KNN预测分类结果

2017-06-18 17:02:29 1834 1

原创 合并txt文件,并使用jieba分词

将目录下,各个类别文件内所有TXT文件分词、去除停用词后集合为一个TXT

2017-06-18 16:49:16 1456

汉语停用词

自己总结的两千多个停用词、介词、无意词、特殊符号等。也许不全,不过遇到了可以自己添加进去。

2017-11-21

分词后的摘要

知网上,电子计算机类(2ele);微型计算机(2mic);金属加工;机械制造 四类文档的题目+摘要 去除停用词

2017-11-21

搜狗语料库(已分词)

搜狗语料库,自己用结巴分词分好的。(为什么摘要必须大于50个字)

2017-11-07

ubuntu 常用指令

ubuntu 常用指令

2017-06-26

PLSA python实现

python

2017-05-17

VC++ 图形学 交互式画矩形

VC++ 图形学 MFC交互式画矩形

2017-05-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除