DianaCody
码龄14年
关注
提问 私信
  • 博客:477,348
    社区:68
    477,416
    总访问量
  • 90
    原创
  • 1,726,216
    排名
  • 181
    粉丝
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2010-11-27
博客简介:

DianaCody's Blog

博客描述:
博客部分文章已移至个人站点http://www.dianacody.com,关注Recommend System, Search Engine, Machine Learning, NLP。欢迎访问。
查看详细资料
个人成就
  • 获得68次点赞
  • 内容获得50次评论
  • 获得179次收藏
创作历程
  • 1篇
    2016年
  • 4篇
    2015年
  • 95篇
    2014年
  • 3篇
    2013年
成就勋章
TA的专栏
  • 网络爬虫系列
    10篇
  • Eclipse插件开发实战系列
    7篇
  • 机器学习系列
    15篇
  • Linux笔记
    13篇
  • Interview
    3篇
  • Data Structure & Algorithm
    8篇
  • BigData
    3篇
  • Machine Learing
    19篇
  • Recommend System
  • Search Engine
    1篇
  • NLP
    1篇
  • Linux
    14篇
  • Hadoop
    9篇
  • Spark
  • DataBase
    1篇
  • git
    5篇
  • C#
    2篇
  • Java
    23篇
  • Python
    10篇
  • SSH
  • Server
  • Software Management
    3篇
兴趣领域 设置
  • 数据结构与算法
    排序算法推荐算法
  • 人工智能
    caffetensorflownlp迁移学习
创作活动更多

HarmonyOS开发者社区有奖征文来啦!

用文字记录下您与HarmonyOS的故事。参与活动,还有机会赢奖,快来加入我们吧!

0人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

SBT-0.13.9.tar

发布资源 2016.03.03 ·
tar

scala-2.11.4.tar

发布资源 2016.03.03 ·
tar

hive表信息查询:查看表结构、表操作等

1.如何查看hive表结构?2.如何查看表结构信息?3.如何查看分区信息?4.哪个命令可以模糊搜索表
原创
发布博客 2016.01.21 ·
2021 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

SublimeText2

发布资源 2015.12.03 ·
exe

ApabiReader4.5.3

发布资源 2015.12.02 ·
exe

SublimeText安装包

发布资源 2015.11.17 ·
exe

Python爬虫/文本处理/科学计算/机器学习——工具包总结

曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python。离开腾讯创业后,第一个作品课程图谱也是选择了Python系的Flask框架,渐渐的将自己的绝大部分工作交给了Python。这些年来,接触和使用了很多Python工具包,特别是在文本处理,科学计算,机器学习和数据挖掘领域,有很多很多优秀的Py
原创
发布博客 2015.02.24 ·
3306 阅读 ·
0 点赞 ·
0 评论 ·
9 收藏

【机器学习】机器学习中的数据清洗与特征处理

一、综述        如上图所示是一个经典的机器学习问题框架图。数据清洗和特征挖掘的工作是在灰色框中框出的部分,即“数据清洗=>特征,标注数据生成=>模型学习=>模型应用”中的前两个步骤。        灰色框中蓝色箭头对应的是离线处理部分。主要工作是从原始数据,如文本、图像或者应用数据中清洗出特征数据和标注数据。 对清洗出的特征和标注数据进行处理,例如样本采样,样本
原创
发布博客 2015.02.23 ·
2877 阅读 ·
2 点赞 ·
0 评论 ·
2 收藏

【推荐系统】互联网商用推荐系统算法实践与框架总结

推荐系统并不是新鲜的事物,在很久之前就存在,但是推荐系统真正进入人们的视野,并且作为一个重要的模块存在于各个互联网公司,还是近几年的事情。 随着互联网的深入发展,越来越多的信息在互联网上传播,产生了严重的信息过载。如果不采用一定的手段,用户很难从如此多的信息流中找到对自己有价值的信息。 解决信息过载有几种手段:一种是搜索,当用户有了明确的信息需求意图后,将意图转换为几个简短的词或者短语的组合(即query),然后将这些词或短语组合提交到相应的搜索引擎,再由搜索引擎在海量的信息
原创
发布博客 2015.02.23 ·
2645 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

博客迁移说明

本博客部分文章迁移至我的个人网站,新站点http://www.dianacody.com,网站将持续关注Search Engine, Machine Learning, NLP相关领域。欢迎访问。
原创
发布博客 2015.01.19 ·
1350 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【NLP】中文分词:原理及分词算法

一、中文分词        词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。        Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(包括向前、向后、以及前后相结合)、最少切分、全切分等等。二、 中文分词
原创
发布博客 2014.11.09 ·
12209 阅读 ·
0 点赞 ·
0 评论 ·
7 收藏

【机器学习】EM最大期望算法

EM, ExpectationMaximization Algorithm, 期望最大化算法。一种迭代算法,用于含有隐变量(hidden variable)的概率参数模型的最大似然估计或极大后验概率估计,其概率模型依赖于无法观测的隐变量。        经常用在ML与计算机视觉的数据聚类领域。        EM应用:GMM混合高斯模型、聚类、HMM隐马尔科夫模型等。 一、Jese
原创
发布博客 2014.11.09 ·
2263 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

【机器学习】主题模型(二):pLSA和LDA

一、pLSA(概率潜在语义分析)  pLSA:    -------有过拟合问题,就是求D, Z, W  pLSA由LSA发展过来,而早期LSA的实现主要是通过SVD分解。pLSA的模型图如下:
原创
发布博客 2014.11.04 ·
4028 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

【机器学习】主题模型(一):条件概率、矩阵分解

两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让搜索更加智能化。主题模型是对文字隐含主题进行建模的方法,其克服传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。关键词:主题模型技术领域:搜索技术、自然语言处理******************************************
原创
发布博客 2014.11.04 ·
6866 阅读 ·
0 点赞 ·
0 评论 ·
8 收藏

【机器学习】推荐系统、SVD分解降维

推荐系统:1.基于内容的实现:KNN等2.基于协同滤波(CF)实现:SVD→ pLSA(从LSA发展而来,由SVD实现)、LDA、GDBT        SVD算是比较老的方法,后期演进的主题模型主要是pLSA和LDA。pLSA主要基于EM最大期望算法,而LDA主要基于Gibbs抽样算法,这个在下一篇文章《主题模型》里会详细介绍。 一、推荐系统        推荐系统实
原创
发布博客 2014.11.04 ·
6399 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

【机器学习】关联规则挖掘(二):频繁模式树FP-growth

Apriori算法的一个主要瓶颈在于,为了获得较长的频繁模式,需要生成大量的候选短频繁模式。FP-Growth算法是针对这个瓶颈提出来的全新的一种算法模式。目前,在数据挖掘领域,Apriori和FP-Growth算法的引用次数均位列三甲。        FP的全称是Frequent Pattern,在算法中使用了一种称为频繁模式树(Frequent Pattern Tree)的数据结构。FP-
原创
发布博客 2014.11.04 ·
3294 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【机器学习】关联规则分析(一):Apriori

一、Apriori原理        Apriori是关联分析中较早的一种方法,主要用来挖掘那些频繁项集合,其思想是:1.如果一个项目集合不是频繁集合,那么任何包含它的项目(超集)也一定不是频繁集。2.如果一个项目集合是频繁集合,那么它的任何非空子集(子集)也是频繁集合。 二、关联分析1.发现频繁项集→ 经常出现在一起的样本集合2.发现关联规则→ 暗示两种样本之间可能存
原创
发布博客 2014.11.03 ·
2626 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【机器学习】聚类算法——K均值算法(k-means)

一、聚类1.基于划分的聚类:k-means、k-medoids(每个类别找一个样本来代表)、Clarans     2.基于层次的聚类:(1)自底向上的凝聚方法,比如Agnes                        (2)自上而下的分裂方法,比如Diana     3.基于密度的聚类:Obsacn、Optics、Birch(CF-Tree)、Cure     4.基于网
原创
发布博客 2014.11.03 ·
2450 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

【机器学习】分类器组合——AdaBoost

AdaBoost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。AdaBoost其实只是boost的一个特例。 一、流程图
原创
发布博客 2014.11.03 ·
4834 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

【机器学习】支持向量机SVM

一、步骤1.找最大分类间隔2.定目标函数3.计算α值(不断调整训练)与ω值4.SMO可以优化算法5.核函数对高维数据处理 二、SVM要学会如何使用libsvm以及一些参数的调节经验,另外需要理清楚svm算法的一些思路:1.svm中最优分类面是对所有样本的几何裕量最大,即
原创
发布博客 2014.11.02 ·
2766 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多