huangyi_906-CSDN博客

翻译翻译：Doc2vec指导

说明：新接触Doc2vec，从网上搜了一下用法，总觉得不是很清晰，偶然找到一片国外博客，觉得比较友好。在搜索资料时，深受英语阅读能力低下的困扰，有身在宝藏之中却不识，坐在盛宴桌边却不能动的无力感。所以尝试翻译并保留在这，本人能力有限，如有错误，请重拍。这是一篇2014年的博客，API有些已经过时，但不影响使用原文链接：https://rare-technologies.com/doc2vec-tut

2017-11-25 13:28:49 2730

原创 Cookie，DNS，IP

Cookie参考：https://zh.wikipedia.org/wiki/Cookie介绍Cookie（负数Cookies），中文名“小型文本文件”，或者“小甜饼”，指某些网站为辨别用户身份而存储在用户本地终端（Client Side）上的数据，通常经过加密。分类Cookie总是保存在客户端中，按在客户端的存储位置，可以分为内存Cookie和硬盘Cookie。内存Cookie有浏览器维护，保存在

2017-09-13 20:37:43 824

原创 Learning How to Learn(1)

学习一项技能，尤其是比较困难代学科，就像举重一样，不可能在比赛的前一天才开始训练。功夫在平时，每天锻炼，才能不断提高。在放松的时候大脑容易出现有创意的想法。在睡觉时，大脑神经元根据学习内容会生长出新的突触，睡醒一觉，你已不同。不止学习，在其他方面也是使用的。学习技能，娱乐，运动，大脑在休息时会发展出新突触。在学习过一段事件后大脑需要放松，把注意里转移到其他事情上，给大脑消化内容新建结构的时间

2017-09-02 09:21:48 496

原创 ubantu配置anaconda + pycharm 2.7环境

ubantu配置anaconda + pycharm 2.7环境一安装anacon下载安装包：在官网下载anaconda速度很慢，推荐清华镜像下载地址：https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/ 速度飞起。注意：根据自己需要选择anaconda2对应python2，anaconda3对应python3。版本名有ppc是ibm公司c

2017-08-28 15:07:39 894

原创 jieba分词

这是一篇在应用jieba做中文分词的记录参考：https://github.com/fxsjy/jieba概述在处理文本数据时，分析语句含义，要把中文的一整句话切分成一个个单词，通过对单词对分析完成语句含义对分析。jieba分词时处理中文单词分割对一种很好对算法包。特点支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常

2017-08-18 10:40:33 673

原创 sklearn_PCA实践

这篇主要记录在sklearn中如何应用pca，理论推导在http://blog.csdn.net/huangyi_906/article/details/75578213）官网中给出的介绍：class sklearn.decomposition.PCA(n_components=None, copy=True, whiten=False, svd_solver=’auto’, tol=0.0, i

2017-07-31 14:50:56 6721

原创数据探索（一）

数据探索是拿到数据要做的第一步，目的是对要分析的数据有个大概的了解。弄清数据集大小，特征和样本数量，数据类型，数据的概率分布等。下面结合奔驰车数据做个梳理，也是个人学习的记录。

2017-07-30 20:24:05 3807

原创聚类总结（中）——密度聚类

密度聚类密度聚类是一种基于密度的聚类方法，基于密度的聚类方法的主要思想是寻找被低密度区域分离的高密度区域。

2017-07-30 00:33:16 4927

原创 SQL基本操作(一）

SQL基本增删改查

2017-07-29 18:26:58 343

原创聚类总结（上）——划分聚类

概述聚类指根据一定的准则，把一份事物按照这个准则归纳成互不重合的几份。机器学习中，聚类指按照一个标准，这个标准通常是相似性，把样本分成几份，使得相似程度高的聚在一起，相似程度低的互相分开。聚类的方法很多，有基于分层的聚类，基于划分的聚类，基于密度的聚类。不同的方法有各自的特点，适用于不同分布的数据。有的适用于大数据集，能发现不同的任意形状的数据。有的算法简单，适用于小量数据集。众多方法中又有无监督学

2017-07-28 23:07:40 15529

原创 XGBoost理论相关推导

概论弱分类器可以通过bagging和boosting转换成强分类器。随机森林是bagging的改进，通过有放回的随机采样，获得不同的样本数据，随机得到不同的决策树，各个决策树之间相互独立，通过投票选出最终结果。boosting是所有分类器加权求和预测最终结果，各个分类器相互不独立。

2017-07-27 17:23:53 598

原创 SVM支撑向量机相关

概述Support Vector Machine（SVM），译作支撑向量机。不同的核函数有不同的作用，线性核、多项式核可以做回归问题。

2017-07-22 14:20:19 402

原创 LogisticRegression相关

概述LR（逻辑斯蒂回归）是一个假设因变量发生概率符合二项分布的分类模型。可以做二分类，也可通过多次二分类实现多分类的目的。是最基本的分类器，优点是速度快，模型简单。

2017-07-21 20:14:08 373

原创开篇

学习之道，切记浮躁和自以为是。差不多就是差很多。

2017-07-21 00:18:38 294

原创 PCA主成分分析推导

概览PCA主成分分析，是一种数据的降维方法。

2017-07-20 21:22:09 925

原创 Python dict.get()

描述：通过key值获取字典内容并返回，如果没有key可以返回指定值。语法：D.get(k,[,d])k:key值实例：c = {'a':1,'b':2,'c':3,'e':4}print c.get("a",'nothing')print c.get("f",'no here')输出：1no here

2017-03-30 19:47:33 477

原创 Python 遍历字典

描述：用for语句可以遍历取出字典中的key值，也可以通过key得到相对应的内容值实例：d = {'a':1,'b':2,'c':3,'e':4}for k1 in d: print k1输出：acbefor k2 in d.items(): print k2输出：('a', 1)('c', 3)('b', 2)('e', 4)for k3,m in d.items

2017-03-30 19:31:20 397

原创 Python S.join()

描述：用于把字符串用指定的符号链接起来，返回字符串格式语法：S.join(iterable)S：需要的分隔符 iterable：被分割对象（按语法字面理解s和iterable作用正好和实际交换）实例：对列表：a = ['a','b','c','d','e']print '-'.join(a)print '*'.join(a[1:3])输出:a-b-c-d-eb*c对元组：b = ('q

2017-03-29 21:40:13 5848

原创 python list.pop()

描述：删除列表中元素并返回其值语法：L.pop([index])实例：a = [1,2,3,4,5,6]b = a.pop()print "b:",bprint "a:",ac = a.pop(1)print "c:",cprint "a:",a输出为：b: 6a: [1, 2, 3, 4, 5]c: 2a: [1, 3, 4, 5]

2017-03-29 21:04:11 893

原创 python.sorted

python.sorted排序和关键字排序

2017-03-26 13:31:47 345

原创 Python.split

Python.split初级应用

2017-03-26 10:51:15 426

Huangyi_906的博客