- 博客(62)
- 资源 (3)
- 收藏
- 关注
原创 汽车行业知识图谱项目实战附git源码
1.基于知识图谱的问答系统:目前通过前端限定用户通过指定的格式来输入问题,然后通过查询知识图谱的形式来回答2.本次跟新介绍:1.考虑到后续数据量大,将数据库从Mysql替换为Neo4j2.新增5个http接口3.支持多层查询与存储,考虑到查询的时间消耗,建议不超过3层3.http接口说明:详细说明:data/http接口说明.txt1.查询单个实体,支持查询深度限制,深度为3时,查...
2018-10-12 16:29:59 6537 14
原创 LintCode:将二叉树拆成链表453
/** * Definition of TreeNode: * class TreeNode { * public: * int val; * TreeNode *left, *right; * TreeNode(int val) { * this->val = val; * this->left = this->right =
2017-08-31 11:37:08 412
原创 LintCode:字符串置换211
Hash表思路,时间复杂度为O(n),附加空间复杂度O(n)class Solution {public: /* * @param A: a string * @param B: a string * @return: a boolean */ //思路:将字符串中的每一个值映射到hash表中,统计出现次数,然后比较是否相等 boo
2017-08-30 13:49:14 674
原创 LintCode:二叉树的路径和276
/** * Definition of TreeNode: * class TreeNode { * public: * int val; * TreeNode *left, *right; * TreeNode(int val) { * this->val = val; * this->left = this->right =
2017-08-30 10:51:00 1569
原创 LintCode:单例204
//单例设计模式class Solution {public: /** * @return: The same instance of this class every time */ static Solution* getInstance() { // write your code here if(pInstance ==
2017-08-29 17:57:31 574
原创 LintCode:二叉树的最大节点632
原题地址:http://www.lintcode.com/zh-cn/problem/binary-tree-maximum-node/#class Solution {public: /** * @param root the root of binary tree * @return the max node */ Solution(){
2017-08-29 14:56:38 407
原创 LintCode:删除链表中的元素452
原地址:http://www.lintcode.com/zh-cn/problem/remove-linked-list-elements//** * Definition for singly-linked list. * struct ListNode { * int val; * ListNode *next; * ListNode(int x) : val(
2017-08-29 14:53:08 389
原创 七月机器学习之贝叶斯方法
先验概率与后验概率 事情还没有发生,要求这件事情发生的可能性的大小,是先验概率. 事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率. 一、先验概率是指根据以往经验和分析得到的概率,如全概率公式,它往往作为“由因求果”问题中的“因”出现。后验概率是指在得到“结果”的信息后重新修正的概率,如贝叶斯公式中的,是“执果寻因”问题中的“因”。先验概率与后验概率有不可分割的
2017-04-01 16:09:42 616
原创 七月机器学习之决策树随机森林和adaboost11
信息是对不确定性的度量 平均互信息是衡量两个概率分布之间的相似性,互信息高那么相似性就比较大 他们之间的运算关系都在这个图里 I是互信息 熵减去条件熵就是互信息 条件熵是衡量差异性的 也就是说,之前的不确定性减去之后的不确定性等于不确定性的减少,不确定性的减少意味着确定性的增加,实际上就是我们寻找的相关性 主要理解ID3即可 A是特征,D是标签label 决策树的面试会问 由以下
2017-03-31 23:12:28 810
原创 七月机器学习项目实战之特征工程6城市自行车共享系统使用状况
特征工程小案例Kaggle上有这样一个比赛:城市自行车共享系统使用状况。提供的数据为2年内按小时做的自行车租赁数据,其中训练集由每个月的前19天组成,测试集由20号之后的时间组成。本项目功能:数据清理,特征提取,标准化连续值特征,离散性数据实现one-hot编码 本项目数据及源码:https://github.com/qiu997018209/MachineLearning#先把数据读进来imp
2017-03-31 17:38:33 2889
原创 七月机器学习之推荐系统9
一个叫准确度,一个叫召回 长尾效应是说,热门的有很多人喜欢,但是个性化的,不同的人有不同的喜好,但是数量较少 马太效应是说,只推荐热门的东西 I是商品集 H是信息熵,在所有的Pi都相等的时候,熵最大,它可以更精准的定义覆盖率 u为均值 同一部电影,不同的用户,u是均值 同一个用户,不同的电影 SVD矩阵的分解
2017-03-30 22:43:34 715
原创 在eclipse+pydev环境下安装scipy的办法
1.卸载anaconda并重启2.安装pip包,用来装软件的 Python -m pip install -U pip setuptools3.将python的安装路径和Scripts路径添加到PATH路径去。 添加Scripts是为了能着找到pip命令 C:\Users\qiujiahao\Downloads\python-2.7.13.amd64\Scripts\ C:\Users\qi
2017-03-28 19:27:36 956
原创 七月机器学习之特征工程6
随机取样:可能无法表征所有的情况 分层采样:对不同的年龄段(举例)进行采样大多数算法对正负样本都是很敏感的 下采样:比如正样本很多,我们在正样本中抽取数据,使得正负样本一样多 如果正样本比负样本大很多,建议你取采集更多的数据 selectKBest选择与y相关度最高的k个数据 l1正则化是截断,也就是说不相关的就截断,权重为0,selectfrommodel可以选出大于权重0的特征
2017-03-28 18:27:13 680
原创 七月机器学习之工作流程与模型调优7
本图包含了实际工作中的所有情况,须仔细阅读 1.wrapper包裹型 1.当数据小于50的时候,需要去采集更多的数据 2.category分类:是连续值的预测还是离散值的预测 3.分类,回归,聚类(cluster), 1.分为train,cv,test,train用来建模,cv是交叉验证集用来帮助我们做参数和模型的选择,test用来测试模型效果 实际工作中很少自己实现一个模型,大多都是
2017-03-27 19:58:46 552
原创 七月机器学习之回归分析与工程应用5
线性回归用于解决连续值预测的问题,逻辑回归用于解决分类的问题,但是实际上通常用来分类,因为它输出的是一个概率这三个概念面试一定会问!!!! 拿到损失函数->对损失函数进行梯度下降->求出最优解,正则化是为了防止过拟合,降低波动线性回归是假定输入和输出间是有线性相关的 不同的算法的损失函数的定义不同 这种情况说的是入参只有一个的时候,当斜率为负数的时候,值会变大,就会继续往前,当为正数的时候就会
2017-03-26 22:12:58 516
原创 七月机器学习之矩阵分析与应用3
线性代数的基本知识 线性相关就是一个向量能被另一个向量表示出来 基是子空间的最大线性无关组 此处一个子空间是一个平面,再加一个不共面的向量就可以组成R3,它一定是R3的一部分 A到U实际上是化简,将第一行乘以-3加到第二行,ux=0可以找到两个线性无关的解 列空间和左零空间在一起就构成了Rn的空间,它是与列空间垂直的那一个空间 PCA降维的本质就是舍弃小的特征值,保留大的特征值 核
2017-03-25 21:52:51 563
原创 七月机器学习之数理统计与参数估计2
概率是已经知道整体求某一个事件的概率,统计是已经知道某一个事件的概率求整体的分布情况非常重要: 方差用于衡量随机变量偏离期望的程度 协方差非常重要:面试经常问 可基于协方差矩阵来筛选特征 二阶导数大于0,即斜率在增加就是凸函数
2017-03-25 15:44:09 499
原创 sklearn中基础库函数笔记
sklearn中的cross validation模块,最主要的函数是如下函数: sklearn.cross_validation.cross_val_score。他的调用形式是scores = cross_validation.cross_val_score(clf, raw data, raw target, cv=5, score_func=None) 参数解释: clf是不同的分类器,
2017-03-24 19:52:52 1539
原创 机器学习项目实战之用户流失预警
from __future__ import divisionimport pandas as pdimport numpy as npchurn_df = pd.read_csv("D:\\test\\machineLearning\\churn.csv")col_names = churn_df.columns.tolist()print "Column_names:"print col
2017-03-22 22:44:06 5792 7
原创 使用Jhash替换传统hash有效降低hash冲突提供查找效率
“`includeincludeinclude”jhash.h”//常规算法的黄金分隔define VOICE_HASH_GOLDEN_INTERER 0x9e370001//hash桶的大小为2的11次方,即2047+1define HASH_SIZE 2048//常用的黄金分隔的hash算法define VOICE_HASH_INTERGER(uiKey,
2017-03-22 21:20:16 5867 1
原创 机器学习之基于matlab的神经网络粒子群优化算法的实现
实现算法的论文,代码源码,测试函数,请见本人的git账户: https://github.com/qiu997018209/MachineLearning以下是mymain.m文件内容 clear % mex cec13_func.cpp -DWINDOWSfunc_num=1;D=10;VRmin=-100;VRmax=100;N=40;Max_Gen=5000;runs=1f
2017-03-21 22:40:59 9438 4
原创 机器学习项目实战之贷款申请最大利润
import pandas as pdloans_2007 = pd.read_csv("LoanStats3a.csv",skiprows=1)#数据清理过滤无用特征 half_count = len(loans_2007)/2loans_2007 = loans_2007.dropna(thresh=half_count,axis=1)loans_2007 = loans_2007.d
2017-03-21 22:07:36 2911
原创 机器学习项目实战:泰坦尼克号获救预测
import pandastitanic = pandas.read_csv("D:\\test\\titanic_train.csv")#进行简单的统计学分析print titanic.describe()#std代表方差,Age中存在缺失值 PassengerId Survived Pclass Age SibSp \count
2017-03-21 00:16:28 9391 8
原创 机器学习之贝叶斯拼写检查器
#coding:utf-8import re, collectionsdef words(text): return re.findall('[a-z]+', text.lower()) def train(features): #使用defaultdict的好处在于当访问一个不存在的键值的时候会调用入参函数,并将结果作为这个key的value model = collection
2017-03-19 22:00:50 642
转载 金玉良言,人生导师,切记切记!!!
8月12日,今日头条创始人张一鸣在“2016今日头条Bootcamp”上对研发&产品部门应届毕业生发表了寄语。 以下是张一鸣演讲实录: 大家好! 各位都非常年轻,我今天来的时候挺有压力。因为我毕业快11年了,看到你们,真是觉得“长江后浪推前浪”。 我去年参加了武汉的校招,感觉新一代年轻人的素质确实都非常好。我昨天就在想,今天应该跟大家分享什么。想了想,先把题目拟出来,把
2017-03-19 16:22:20 741
原创 机器学习项目实战之贝叶斯垃圾邮件分类
#coding:utf-8'''Created on 2017年3月19日@author: qiujiahao'''import numpy as np#贝叶斯实质上也是一个二分类def loadDataSet():#数据格式 postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
2017-03-19 14:21:25 2580 3
原创 机器学习之支持向量机原理
找一条“胖”的决策边界的前提时点不能分错,这条胖的边界我们称为margin 此处distance是图中的h,即点到决策边界的计算公式 优化后的最终公式是下图
2017-03-19 00:22:04 558
原创 机器学习之递归神经网络RNN实现二进制加法
1.循环递归,并且当前的结果受前段时间的结果影响,不同样本间是有联系的 以下是反向传播时对权重进行调整的推倒公式 #coding:utf-8'''Created on 2017年3月18日#本项利用RNN递归神经网络实现二进制加法@author: qiujiahao'''import numpy as npimport copy#激活函数def sigmoid(x):
2017-03-18 23:43:13 1062
原创 机器学习之简单三层神经网络实现
import numpy as np#本项目实现简单神经网络模型#非线性函数#前向传播:直接返回sigmoid激活函数#反向传播:对sigmoid函数求倒数,即x*(1-x)def nonlin(x,deriv=False): if (deriv == True): return x*(1-x) return 1/(1+np.exp(-x))#输入样本x =
2017-03-18 19:24:23 2655
原创 机器学习之神经网络基础概念
1.第一步:前向传播,X经过计算得到L值 第二步:反向传播,根据得到的L值,分析各个W所起到的左右 第三步:调整各个W,使得L值不断下降B和L后面存在一个激活函数,使得神经网络具备非线性功能 正则化项用于解决棍和现象
2017-03-18 18:31:24 487
原创 机器学习之SVD奇异值原理分析及举例
中间的矩阵S即是我们所关心,它的对角线上的每一个值,越大,说明这一类元素越重要,同时我们也可以取一个r乘以r的近似值,来得到我们所关心的,对最终结果有重要影响的类别。例如,我想直到最重要的2项指标,那么我可以使s成为2行2列的矩阵,u使m*2的矩阵,V是n行2列的矩阵 举例如下: 通过S将U,V控制成2列,这样方便我们在二维的坐标系中展示
2017-03-18 14:19:15 918
原创 机器学习之K-means聚类分析NBA球员案例
import pandas as pdimport numpy as npimport mathimport matplotlib.pyplot as pltnba = pd.read_csv("D:\\test\\machineLearning\\nba_2013.csv")print nba.head(3) player pos age bref_team_i
2017-03-18 11:43:37 7701 2
原创 机器学习之无监督聚类问题
#无监督:数据没有明确说明属于哪一类,无需去训练模型import pandas as pdvotes = pd.read_csv("D:\\test\machineLearning\\114_congress.csv")print(votes["party"].value_counts())print votes.mean()R 54D 44I 2Name: par
2017-03-18 11:29:54 1034
原创 机器学习之无监督聚类问题
通过判断彼此间的距离来实现聚类#无监督:数据没有明确说明属于哪一类,无需去训练模型import pandas as pdvotes = pd.read_csv("D:\\test\machineLearning\\114_congress.csv")print(votes["party"].value_counts())print votes.mean()R 54D 44I
2017-03-17 23:23:21 1212
原创 机器学习之随机森林
#随机森林存在2重随机性:1样本的随机性 2特征的随机性import pandascolumns = ["age", "workclass", "fnlwgt", "education", "education_num", "marital_status", "occupation", "relationship", "race", "sex", "capital_gain
2017-03-17 22:02:22 605
原创 机器学习之使用sklearn实现决策树及原理分析
import pandascolumns = ["age", "workclass", "fnlwgt", "education", "education_num", "marital_status", "occupation", "relationship", "race", "sex", "capital_gain", "capital_loss", "hours_per
2017-03-17 16:45:49 4975 2
原创 机器学习之自己实现决策树
import pandasimport numpy as np# Set index_col to False to avoid pandas thinking that the first column is row indexes (it's age).columns = ["age", "workclass", "fnlwgt", "education", "education_num",
2017-03-17 15:38:09 715
原创 机器学习之K-近邻算法代码实现
以下是代码实现#coding:utf-8'''Created on 2017-03-17@author: qiujiahao'''import numpy as npimport operatorfrom audioop import reversedef createDataSet(): #以矩阵的格式创造四个数据 group = np.array([[1.0,1.1
2017-03-17 10:48:26 398
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人