2018年11月_零一睡不醒

原创 python基础之文件读写操作

git 把代码上传到github一、文件打开方式，有三种常用的打开方法：r , w, a。r :读；w:写；a:追加（基本不用）ps: os.path 用法#os.path.dirname(path) 去掉文件名返回目录print(os.path.dirname("E:/Read_File/read_yaml.py"))#结果：E:/Read_File# os.path.d...

2018-11-22 13:51:00 409

原创 python 之计算词典和词频矩阵

词典构造：每个单词对应一个数字ID 。words列表里的单词排序，不知道以何原理。词频矩阵：col 数为单词的个数，列数为文本的个数。from collections import Counterfrom itertools import chainimport numpy as npdocuments = ["Human machine interface for lab ab...

2018-11-30 17:15:11 5388

转载 python模块之itertools

1 chain(*可迭代对象）chain 迭代器能够将多个可迭代对象合并成一个更长的可迭代对象。实际上，我参与的一个项目中最近就需要这一功能。我有一个列表，里面已经包含一些元素，接着想把另外两个列表添加到最初那个列表中。注意，我们想添加的是两个列表的元素。最初，我是这样做的：>>> my_list = ['foo', 'bar']>>> number...

2018-11-30 16:59:15 127

一、算法原理：使用gensim自带的LDAmodel。使用方法原理是：候选的关键词与抽取的主题计算相似度并进行排序，得到最终的关键词。关键点，候选关键词和抽取的主题如何计算相似度？最简单的想法是：每个主题由N个单词*概率的集合来代表。每个文本属于k个主题，把k个主题所包含的词赋予该文档，便得到每个文档的候选词关键词。如果文档分词后得到的词语在候选关键词中，那么将其作为关键词提取出来。(候选关键词...

2018-11-30 15:39:38 12411 3

原创 gensim 使用三 LDA模型使用

1、语料的处理：通过corpora.Dictionary把原始文本数据转为字典。将用字符串表示的文档转换为用id表示的文档向量。因为输入数据为csv中的一列数据，故先进行预处理使其变为train[]样式的数据。stopwords = [line.strip() for line in open('./stopword.txt', 'r',encoding='utf-8').readlin...

2018-11-30 14:37:19 7173 11

原创文本关键词提取方法综述

一、提取过程总共分两步，第一步对文章分词、去停用词、pos tag 之后，得到候选关键词列表L；第二步，使用关键词提取算法提取关键词。最后得到的关键词应满足以下三个条件：1·、Understandable. The keyphrases are understandable to people. This indicates the extracted keyphrases shoul...

2018-11-29 10:26:49 7408

原创 pandas之DataFrame

1、将列表转换为DataFramedistances = [11,22,33,123]distances = pd.DataFrame(distances,columns=['dis'])2、改变DataFrame的列的顺序方法一：最简洁的方法order = ['date', 'time', 'open', 'high', 'low', 'close', 'volum...

2018-11-27 15:47:27 231

原创关于word2vec和词向量的理解

1、如何产生词向量 word embedding原始语料某个汉字的one-hot编码向量(1*V)和word2vec模型中间参数矩阵W (V*N)相乘得到词向量 1*N N<<V。因为每个汉字有自己的one-hot编码，所以不存在语料库里面不同地方的相同汉字的词向量不一样的问题。2、训练得到的word2vec 模型的意义是什么？3、弊端word2vec：与一般的共现...

2018-11-27 11:07:55 932

原创 gensim word2vec 使用

一、训练 Word2Vec模型：sentences = word2vec.LineSentence('./in_the_name_of_people_segment.txt')model = word2vec.Word2Vec(sentences, hs=1,min_count=1,window=3,size=100)二、模型的使用：word2vec本质上就是每个词语的词向量表达。...

2018-11-26 14:18:06 528

原创 python的问题日常

一、TypeError: sequence ietm 0:expected str tuple foundstring.join connects elements inside list of strings, not ints.Use this generator expression instead :values = ','.join(str(v) for v in val...

2018-11-22 09:40:05 343

原创读《基于文档主题结构的关键词抽取方法研究》有感（一）

没错，这是一篇读后感。今天拜读了刘知远老师的博士毕业论文。一、研究内容：1、基于文档内部信息，利用文档的词聚类算法构建文档主题，进行关键词抽取。2、基于文档外部信息，利用隐含主题模型构建文档主题，进行关键词抽取。3、综合利用隐含主题模型和文档结构信息，进行关键词抽取。4、基于文档与关键词主题一致性的前提，提出基于机器翻译模型的关键词抽取方法。二、文中相关论文1、Page ...

2018-11-20 14:16:51 837

原创文本关键词提取二三事

基于此，我想说的是，虽然关键词提取的算法很多，也很花哨，但是思路比较简单，应当在写Paper之前，或者开发技术应用之前，做好技术定位。另外，几乎没有论文回答最基础的一个问题，什么是关键词？为什么某些词应当被提取出来给阅读者看而另外一些词应当忽略？哪些词应当展示给用户看？太多研究关注算法的精度和效率，而忽视了关键词的本质内涵。关键词不是一个客观存在的东西，而本身也是人为标注的，因此模型的评估和优化，...

2018-11-20 13:42:22 221

原创文本关键词提取方法有哪些？

一、来自知乎的回答https://www.zhihu.com/question/21104071/answer/24556905

2018-11-20 13:30:44 3218

原创 python 里的编码问题

一、去除 \ufeffencoding='utf-8-sig'任何东西要存储在计算机中都要编码，视频，音频，文本，所以有时候，我们在打开一个视频的时候会遇到解码错误，不能播放，就是因为我们要将存储在计算机中的东西解码还原成我们开始存储时它的形式，但是中间出现了解码失败的错误，自然就不能还原播放了。 Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。UTF-8、U...

2018-11-20 09:40:20 592

原创 TF-IDF存在的问题及其改进

一、问题在本质上IDF是一种试图抑制噪音的加权，并且单纯地认为文本频率小的单词就越重要，文本频率大的单词就越无用。这对于大部分文本信息，并不是完全正确的。IDF的简单结构并不能使提取的关键词，十分有效地反映单词的重要程度和特征词的分布情况，使其无法很好地完成对权值调整的功能。尤其是在同类语料库中，这一方法有很大弊端，往往一些同类文本的关键词被掩盖。例如：语料库D中教育类文章偏多...

2018-11-19 16:58:57 17362 14

原创 pycharm导入本地py文件时，模块下方出现红色波浪线时如何解决

详情见链接所在博客总结：出现红色波浪线的原因是因为本地路径并未被标记“源目录”

2018-11-19 15:39:59 2780

原创 python 数据类型之字典

一、''和' '都可以作为字典的键a ={'':1,' ':2}print(a)for key in a: print('这就是key:', key)del a['']print(a)del a[' ']print(a)二、dict.get()方法返回指定键的值。 a.get(key1) ...

2018-11-19 13:40:26 142

原创如何生成自定义的逆向文件频率（IDF）文本语料库（二）

一、什么是IDF文本语料库在jieba的TF-IDF模型里面，当调用获取关键词的函数 jieba.analyse.extract_tags() 的时候，该函数会调用默认的IDF语料库。IDF语料库就是jieba官方在大量文本的基础上，通过计算得到的一个idf字典，其key为分词之后的每个词，其value为每个词的IDF数值。二、计算自定义的IDF文本语料库程序流程如下...

2018-11-19 11:32:31 4064 4

原创 python里的转移字符

转义字符描述 \(在行尾时) 续行符 \\ 反斜杠符号 \’ 单引号 \” 双引号 \a 响铃 \b 退格(Backspace) \e 转义 \000 空 \n 换行 \v 纵向制表符 \t 横向制表符 \r 回车 \f 换页 \oyy 八进制数yy代...

2018-11-19 09:25:48 754

原创 jeiba分词

https://github.com/fxsjy/jieba

2018-11-16 16:50:14 402

原创如何生成自定义的逆文件频率（IDF）文本语料库（一）

在基于TF-IDF进行特征提取时，因为文本背景是某一具体行业，不适合使用通用的IDF语料库，我觉得应该使用自定义的基于该行业背景的IDF语料库。请问如何生成自定义IDF语料库呢？我现在有的数据是几十万个该行业的文档，初步想法是：对每个文档分词去重，把所有文档分词结果汇集去重后形成一个分词集，然后对于分词集里的每一个词语w，按idf=log(该行业文档总数/(含有w的文档数量+1))**公...

2018-11-15 15:36:47 5360

原创 python数据类型之集合

1.集合的定义格式：集合名 = {元素1，元素2，...}例：my_set = {1, 3, 5}集合是无序的-> 不支持下标索引集合是可变的数据类型集合中的元素是唯一的集合一般用于元组或者列表中的元素去重定义一个空的集合 my_set = set()注意： my_set = {} 这样的写法为一个空字典2.集合的常见操作符交集 &并集 ...

2018-11-15 11:55:21 170 1

原创文本内容画像&用户画像理解之最终版

首先，用户画像和内容画像等于给用户和文本贴标签，即提取能代表该用户和该文章的关键特征。两个画像都构建完成之后，便是推荐算法出场。一、标签的定义标签是对高维事务的降维理解，抽象出实物更具有代表性、更显著的特点。二、标签产出方式：内容和用户两种在内容画像层面，在文本处理中，对于给定的非结构化的一篇文章，内容画像一共分为一下两步：2.1、对非结构的文本进行结构化处理，常用的...

2018-11-14 15:07:07 4753

转载推荐系统之内容画像

中午和一前同事一起用餐，发现还是有很多碰撞点的。交流了很多正在做的事情，对方也提供了非常多的思想值得自己很好的思考。先是和他聊了下我们现在做内容标签的进展，其实就是在做内容画像。我们一般都是在谈用户画像，其实内容也是要画像的。我之前说，内容和用户是现在互联网企业核心的两个东西，用户的行为则将内容和用户连接了起来。很多人一上来，撸起袖子就开始做用户画像，后面会发现，如果没有对内容做好分...

2018-11-14 10:12:08 860

原创主流推荐算法

主流推荐算法大致可分为：基于内容（相似度）的推荐基于用户(User)/物品（Item）相似度的协同过滤热点新闻推荐（你看到的那些头条新闻）基于模型的推荐（通过输入一些用户特征进入模型，产生推荐结果）混合推荐（以上十八般兵器一起耍！）信息源：用户画像、物品画像、群体数据、知识模型。1、内容算法推荐之爆款2、四种推荐算法摘录融...

2018-11-13 17:11:22 3283

原创文本数据下的用户画像

一、概述1、用户标签的获取：喜好关键词表：一个key-value 键值对。用户喜好的关键词-喜好程度”这样的Key-Value对。而这个map最开始当然是空的，而从任意时刻开始，我们可以开始跟踪某用户的浏览行为，每当该用户新浏览了一条新闻，我们就把该新闻的“关键词-TFIDF值”“插入”到该用户的喜好关键词表中。当然这个“插入”要考虑关键词表里已经预先有了某预插入的关键词的情况，那么在这个...

2018-11-13 16:05:07 1253 2

转载云模型（Cloud Model）

一、基本概念云模型是由中国工程院院士李德毅在1995年提出的概念，是处理定性概念与定量描述的不确定转换模型。已经成功应用到自然语言处理处理，数据挖掘，决策分析，智能控制，图像处理等领域。看一下百度的定义：嗯，乱七八糟，我也看不懂。不过没关系，了解大概的概念就好。整个模型叫云，每个小的数据，也就是每个发生在系统中的事件，叫做云滴。看他的数字特征。 ...

2018-11-13 10:34:13 37366 6

原创相似度计算之Jaccard系数

Jaccard相似系数定义给定两个集合A,B，Jaccard 系数定义为A与B交集的大小与A与B并集的大小的比值，定义如下：当集合A，B都为空时，J(A,B)定义为1。与Jaccard 系数相关的指标叫做Jaccard 距离，用于描述集合之间的不相似度。Jaccard 距离越大，样本相似度越低。公式定义如下：其中对参差（symmetric difference）...

2018-11-13 10:23:22 64513 13

原创解决FutureWarning: Conversion of the second argument of issubdtype from `float` to `np.floating`

解决问题FutureWarning: Conversion of the second argument of issubdtype from `float` to `np.floating` is deprecated. In future, it will be treated as `np.float64 == np.dtype(float).type`. from ._conv i...

2018-11-13 09:50:08 1149

原创什么是计算机科学中的“本体论”

最近看用户画像，里面提到了本体论。故把知乎一个回答放于此地。一、本体的概念本体的概念有两层意思，一层是哲学层面的意思，一层是引申到信息科学中的语义层面的意思。举个最通俗的例子来解释一下这两层意思，我们就拿苹果来举例。关于苹果的描述可以有很多，这里取三个苹果 apple (苹果的图片) 也就是说，中文的“苹果”，英文的“apple”和“苹果的图片”都可以让人知道是在表示...

2018-11-12 15:26:04 4978 1

转载用户画像入门（转）

这篇文章在宏观上很好地描述了用户画像的主要内容。（文章内的图片来源于不同帖子，侵删）一、什么是用户画像用户画像是指根据用户的属性、偏好、生活习惯、行为等信息，抽象出来的标签化用户模型。通俗说就是给用户打标签，而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户，可以让人更容易理解用户，并且可以方便计算机处理。...

2018-11-12 14:02:25 2147

原创用户画像

一、定义什么是用户画像？1、用户画像是指根据用户的属性、偏好、生活习惯、行为等信息，抽象出来的标签化用户模型。通俗说就是给用户打标签，而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户，可以让人更容易理解用户，并且可以方便计算机处理。2、用户画像通常包含定性画像与定量画像；定性画像是描述用户的基本属性、行为刻画、兴趣模型等，定...

2018-11-12 13:49:39 2778

原创 anaconda + pycharm+TensorFlow 安装问题

一、anaconda的版本和python版本的对应关系，最新版anaconda 对应python3.7,。二、pycharm 里面的解释器的选择。新建一个project ，然后在命名界面下拉，在existing environment 那里搜索对应的python.exe。可以避免各种麻烦。pycharm激活三、打开pycharm 一直有updating index。已知的方法尝试过，都没用...

2018-11-10 17:14:58 731

原创关于numpy 数组的知识总结

一、简单一维数组的创建arr1 = np.arange(10) #创建内容为0—9的一维数组 [0,1,2,3,4,5,6,7,8,9]arr1.shape : (10,)这里说明了一个问题，（10,）指的是一维数组的长度，没有行和列的概念。对比可知(1,10)指的是一个特殊的二维数组，也即一个行向量,如下：[[0,1,2,3,4,5,6,7,8,9]]二、创建二维...

2018-11-10 14:57:11 223

转载 TensorFlow Mnist数据集下载问题

安装好TensorFlow后，按教程输入如下命令时，会出现不能下载数据的问题。from tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets("MNIST_data/", one_hot = True)一、实际运行时根本无法通过网络下载，原因是需要科学上网。解决方案就...

2018-11-10 11:36:50 461

原创 win10安装软件时候出现“要在应用商店搜索应用么” 解决方法

该软件右键属性，常规-安全，勾选解除锁定，确定。

2018-11-10 11:19:02 26087 4

原创今日头条文章推荐算法摘记

一、用户标签用户标签今日头条常用的用户标签包括用户感兴趣的类别和主题、关键词、来源、基于兴趣的用户聚类以及各种垂直兴趣特征(车型，体育球队，股票等)。还有性别、年龄、地点等信息。性别信息通过用户第三方社交账号登录得到。年龄信息通常由模型预测，通过机型、阅读时间分布等预估。常驻地点来自用户授权访问位置信息，在位置信息的基础上通过传统聚类的方法拿到常驻点。常驻点结合其他信息，可以推测用户的工作地点...

2018-11-09 15:44:02 472

原创 Flask + Ajax + Mysql 实现网页异步加载（二）

Flask + Ajax + Mysql 实现网页异步加载（一）二、jquery 和Ajax 实现前端请求<script src="static/js/jquery.min.js" ></script><script type="text/javascript"> var pk = 1; $(window).scroll(fun...

2018-11-09 14:01:33 1803

原创 Flask + Ajax + Mysql 实现网页异步加载（一）

滚动条滑到底部时候，在当前页面加载下一页数据；滚动条到达顶部时候，刷新当前页面。一、flask 实现的服务器端@app.route('/',methods=['GET','POST'])def index(): '''新闻首页''' page = request.args.get('page', 1, type=int) pagination = News....

2018-11-09 11:48:31 2015

KDD Cup 2012 Track1 数据集

空空如也