数据挖掘
文章平均质量分 67
fxnfk
这个作者很懒,什么都没留下…
展开
-
weka StringToWordVector是如何选择词典的
最近在做基于内容的推荐,试了几种方法:向量空间模型(用lucene实现)、贝叶斯分类、聚类(用weka的SimpleKMeans)。用聚类做推荐,我的思路是首先将所有文本进行聚类,如果一类中有用户读过的书,则将这类中他没有读过的书推荐给他。文本聚类实现是用的weka,首先用StringToWordVector过滤器,将文本转化为向量,然后用SimpleKMeans进行聚类。但聚类的效果不太理想,经常原创 2015-08-12 16:03:05 · 2332 阅读 · 0 评论 -
jieba分词
jieba github:https://github.com/fxsjy/jieba原创 2017-08-24 15:42:01 · 358 阅读 · 0 评论 -
scikit-learn
官网:http://scikit-learn.org/stable/ 雷锋网scikit-learn入门介绍:https://www.leiphone.com/news/201701/ZJMTak4Y8ch3Nwd0.html 官方教程:http://scikit-learn.org/stable/tutorial/statistical_inference/index.html#stat-l原创 2017-08-24 15:46:37 · 405 阅读 · 0 评论 -
文本聚类
Python爬虫: http://python.jobbole.com/81332/ http://python.jobbole.com/81359/python读取excel文件: http://www.cnblogs.com/shaosks/p/6098282.html原创 2017-08-24 16:01:26 · 759 阅读 · 0 评论 -
爬虫流量被限制
爬虫抓取数据时,被抓取的网站可能会限制流量。可以用代理,不停的变换ip。但现在有个问题,要抓取的网站需要翻墙,这些代理不能翻墙。但我本地通过hosts文件可以访问到要抓取的网站。抓取网站是通过https协议,http第一步是dns解析,如果不通过dns服务器解析,直接用我给定的ip,就可以访问了。有几个问题要确认: 1、http能不能用指定ip,不用dns解析;如果能,可解。 2、如果不能,能不原创 2017-09-01 15:37:19 · 2490 阅读 · 0 评论 -
文档主题模型
1、scikit调用scikit-learn的实现: http://www.cnblogs.com/pinard/p/6908150.html http://blog.csdn.net/TiffanyRabbit/article/details/76445909 http://scikit-learn.org/stable/auto_examples/applications/plot_top原创 2017-09-02 19:03:36 · 2275 阅读 · 0 评论 -
使用Apriori算法进行关联分析
参考:机器学习实战 Peter著 李锐翻译 11章关联分析就是在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式:频繁项集或关联规则。频繁项集是经常出现在一块的物品的集合,关联规则暗示两种物品之间可能存在很强的关系。怎样量化一个子集是频繁程度呢?用数据集中包含该子集的记录所占的比例。如何量化一条关联规则呢?如:A→BA \rightarrow B。用包含A,B的记录数包含A的记原创 2017-11-03 11:21:10 · 1556 阅读 · 0 评论 -
机器学习的几个概念
下面都是我目前的理解,可能有不正确的地方,欢迎指正。Linear Discriminant Analysis, LDA,线性判别分析LDA降维的目标:将带有标签的数据降维出处:https://blog.csdn.net/liuweiyuxiang/article/details/78874106LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”出处:http://w...原创 2018-11-13 08:20:08 · 285 阅读 · 0 评论 -
关键词、摘要、关键短语提取
textRank可以用textRank方法提取这些信息,借鉴了google的pageRank思想来计算节点(词、句子)的权重。先给节点一个初使权重,然后根据节点之间的关联关系,迭代的调整权重,直至不再变化。tf*idf用文档词频、反文档词频计算词的权重,来选择关键词。...原创 2018-11-14 11:12:39 · 3473 阅读 · 0 评论 -
李航 统计学习方法 第五章 决策树 课后 习题 答案
决策树是一种基本的分类和回归方法。决策树呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合,也可以认为是定义在特征空间和类空间上的条件概率分布。学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型。预测时,对新的数据,利用决策树模型进行分类。决策树学习通常包括三个步骤:特征选择、决策树的生成和决策树的剪枝。(ID3、C4.5、CART)原创 2017-07-24 11:30:01 · 41829 阅读 · 22 评论 -
计算网页停留时间的平均时长
需求:现在有好多用户访问某个网页的停留时间,要计算平均时长。求均值是不太合理的,因为有的时间特别的长,这样的时间应该是噪音数据,这样计算的均值感觉就偏大。我感觉应该先找到事件的分布,然后根据分布计算它的期望。首先把数据分成几个区间,然后计算每个区间内事件发生的频次: (参考这个:http://jingyan.baidu.com/article/f3ad7d0fffa41509c2345b6e.ht原创 2017-06-15 16:58:10 · 10599 阅读 · 1 评论 -
李航 统计学习方法 第一章 课后 习题 答案
1.1统计学习方法的三要素是模型、策略、算法。伯努利模型是定义在取值为0与1的随机变量上的概率分布。统计学分为两派:经典统计学派和贝叶斯统计学派。两者的不同主要是,经典统计学派认为模型已定,参数未知,参数是固定的,只是还不知道;贝叶斯统计学派是通过观察到的现象对概率分布中的主观认定不断进行修正。极大似然估计和贝叶斯估计的模型都是伯努利模型也就是条件概率模型;极大似然估计用的是经典统计学派的策略,贝叶原创 2017-04-14 14:48:36 · 31865 阅读 · 34 评论 -
朴素贝叶斯,Laplace平滑
朴素贝叶斯分类是基于贝叶斯公式和特征条件独立假设的分类方法。 贝叶斯公式为:p(y|x)=p(x|y)∗p(y)p(x)p(y|x)=\frac{p(x|y)*p(y)}{p(x)}。x为特征向量,y是类别。 给定特征向量,求他属于那一个类别,也就是: maxyp(y|x)=maxyp(x|y)∗p(y)max_yp(y|x)=max_yp(x|y)*p(y) 假设特征是条件独立的,即p(x原创 2016-07-08 17:08:20 · 3949 阅读 · 0 评论 -
多项式分布
多项式分布式二项式分布的推广。在n次独立重复试验中,每次试验可能的结果只有两种,发生和不发生,发生标记为事件A,每次试验发生的概率为p(A)p(A)p(A),n次试验中时间A出现k的概率符合二项式分布概率。这个概率为Cknpk(1−p)n−kCnkpk(1−p)n−k\mathcal{C}_n^kp^k(1-p)^{n-k}。假设随机试验有k个可能的结果A1,A2,...AkA1,...原创 2016-07-08 17:56:17 · 13508 阅读 · 2 评论 -
tensorflow安装
用pip方式在64位linux上安装tensorflow遇到如下问题: 问题出在要下载的whl文件在google的服务器上,而google被墙了,试了好多次都不能成功。解决办法:手动下载whl文件,然后用pip install *.whl安装。 参考安装:http://www.leiphone.com/news/201606/ORlQ7uK3TIW8xVGF.html 下载镜像:https:/原创 2017-03-25 01:04:13 · 264 阅读 · 0 评论 -
统计学习方法 第4章 朴素贝叶斯法 习题答案
1 描述设输入空间X⊆Rn\mathcal{X} \subseteq R^n为nn维向量的集合,输出空间为类标记集合Y={c1,c2,…,cK}\mathcal{Y}=\{c_1,c_2,\dots,c_K\}。输入为特征向量x∈Xx \in \mathcal{X},输出为类标记y∈Yy \in Y。XX是定义在输入空间X\mathcal{X}上的随机变量,YY是定义在输出空间Y\mathc原创 2017-05-16 16:33:41 · 8690 阅读 · 13 评论 -
用TextGrocery做文本分类
项目主页:https://github.com/2shou/TextGrocery 我要对这些文本进行二分类,数据库中大概有3000条,取了50条,手工标注类别。 我的环境是Ubuntu+Anaconda。 安装:pip install tgrocery代码:#!/usr/bin/env python2# -*- coding: utf-8 -*-"""Created on Sun Ma原创 2017-05-15 14:51:29 · 3898 阅读 · 3 评论 -
统计学习方法 第三章 kdTree
在RkR^k空间中有mm个点,给定一个点,找到与这个点最近的点。 最简单也是效率最低的方法是一个一个的计算比较,时间复杂度是o(m).o(m).原创 2017-05-10 18:09:39 · 1751 阅读 · 2 评论 -
统计学习方法 第二章 感知机
感知机是二分类的线性分类模型,输入是实例的特征x∈Rnx \in R^n,输出是实例的类别{−1,+1}\{-1,+1\}。感知机对应于输入空间中将实例划分为正负两类的分离超平面,属于判别模型。感知机学习旨在求出将训练数据进行线性划分的分离超平面,为此,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型。1 模型假设输入空间(特征空间)是X⊆RnX \subseteq R^原创 2017-04-25 18:15:02 · 640 阅读 · 0 评论 -
统计学习方法 第1章 概论
1、统计学习三要素:模型、策略、算法。1.1 模型就是所要学习的条件概率分布或决策函数。模型的假设空间、输入空间、输出空间、参数空间1.2 策略:按照什么样的准则学习选择最优的模型损失函数(loss/cost function):度量模型一次预测的好坏;L(Y,f(X))L(Y,f(X)) 风险函数:度量平均意义下模型预测的好坏。常用的损失函数: (1)0-1损失函数: L(Y,f(X))={原创 2017-04-11 17:20:23 · 518 阅读 · 0 评论 -
推荐系统
转自:http://blog.csdn.net/u010670689/article/details/71513133推荐算法分类:基于流行度的算法协同过滤算法基于内容的算法基于模型的算法混合算法基于流行度的算法 不提供个性化推荐。我觉得哔哩哔哩在这方面做的非常好,比如电视剧的排序,他首先分为两部分,完结剧集和连载剧集,分别排序,我觉得这是他比A站好的地方,又分别按投稿时间和热度排序,原创 2017-06-05 15:18:46 · 403 阅读 · 0 评论 -
近义词挖掘
意思相近的词,比如“西红柿”,“番茄”。要计算词的相似度可以首先把词转换为向量,然后用余弦夹角计算相似度。如何把词转换为向量呢?word2vector可以,他就是把语料库中的词转换为向量。(具体计算过程我还没有看明白,to-do)我目前知道的一点是:我还知道另外一种方法,奇异值分解,Singular Value Decomposition,词-文章矩阵,经过SVD,所有的词都可以转换为一...原创 2018-11-14 11:21:48 · 1096 阅读 · 0 评论