自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 一些算法讲解比较好的链接

wmd文档相似度:http://www.omegaxyz.com/2018/11/22/wmd/社区发现Fast Unfolding算法:https://blog.csdn.net/google19890102/article/details/48660239社区发现算法总结:https://www.cnblogs.com/nolonely/p/6262508.htmlPersonalRan...

2019-03-24 22:21:41 367

原创 爬虫一些代码

import urllibimport urllib2url='http://www.zhihu.com/#signin'user_agent='MOZILLA/5.0'values={'username':'252618408@qq.com','password':'xxx'}headers={'User-Agent':user_agent}data=urllib.urlencod...

2018-12-24 09:50:02 3062

原创 信用卡评分模型学习笔记总结

一些基本概念M1,M2,M3,…M表示月份,简单理解逾期多少个月了评分卡类型反欺诈评分卡,申请评分卡,行为评分卡,催收评分卡是对未来一段时间内违约/逾期/失联概率的预测,概率越高,分数越低,越不安全。一.申请评分卡模型用在申请环节,以申请当日及过去信息为基础,预测未来放款的违约概率。申请评分卡常用的特征个人信息:学历 性别 收入负债信息:在本金融机构或其他机构的负债情况消费能...

2018-12-23 20:17:20 7304 3

原创 mysql学习笔记二

unionsql1 union sql2;如果两个结果集列名字不一样依旧可以进行合并,列名以第一个结果集为准。如果两个结果集列的数量不同,union不能使用。计算列的类型不一样,union依旧可以合并,只要列的数量一致就行。union后的结果集可以进行排序。如果union后的结果有重复,此时默认会去重,若不想去重,用union all。参考答案:select id,sum(nu...

2018-12-23 19:05:10 178

原创 mysql学习笔记一

连接服务器mysql -uroot -proot选库use test;查看库show databases;创建数据库create database 数据库名 charset utf8;删除数据库drop database 数据库名;把数据库改名mysql可以把表/列可以改名 database 不行查看库下面所有的表show tables;创建表create table...

2018-12-23 09:29:55 130

原创 关联规则

关联规则挖掘的 3 个度量指标:支持度、置信度、提升度支持度(Support)X → Y 的支持度表示项集 {X,Y} 在总项集中出现的概率其中,I 表示总事务集,num()表示事务集中特定项集出现的次数,P(X)=num(X)/num(I)置信度(Confidence)X → Y 的置信度表示在先决条件 X 发生的情况下,由规则 X → Y 推出 Y 的概率。提升度(Lift)X ...

2018-12-18 23:08:15 2849

原创 python一些代码总结

1.绘画混淆矩阵​import matplotlib.pyplot as pltimport itertoolsdef plot_confusion_matrix(cm, classes, title='Confusion matrix', cmap=plt.cm.Blues): ...

2018-12-18 22:55:17 352

原创 用户画像以及推荐系统

一.用户画像1.什么是用户画像根据用户目标,行为, 观点的差异,抽出典型特征进行区别,即打标签2.建立用户画像作用例如:啤酒与尿布的故事推荐系统 猜你喜欢精准营销 锁定用户 广告投放3.建立用户画像的数据数据:静态和动态数据静态:性别 地域 职业 消费等级动态:浏览网页 搜索商品 发表评论4.一般步骤数据预处理特征选择建模预测待补充代码二.推荐系统1.协同过滤(1...

2018-12-18 22:40:28 5425

原创 Linux常用命令学习笔记

1.ls命令-a所有隐藏文件-h人性化-l#获取详细信息-ld#只列出目录-i#索引号2.linux的粘贴复制快捷键ctrl+shift+c ctrl+shift+v3.mkdir-p(递归创建 即使不存在也可以被创建) 可以同时创建多个目录创建目录权限不够时前面加sudo4.cd 切换目录cd /回到根目录cd … 回到上级目录pwd 显示当前目录5.rmdir删除...

2018-12-17 12:45:03 240

原创 机器学习集成算法总结

一.Voting思想:选取多个分类器,少数服从多数二.Bagging特点: 放回抽样方法:1.放回抽样训练集2.Outofbagging:放回抽样中总有一部分数据没被抽到,可将这部分作为验证集3.随机采样特征4.随机采样特征+随机采样训练集,如随机森林随机森林优点可处理高位数据且不用做特征选择能够计算特征重要性泛化能力好训练速度快缺点在某些噪音较大的问题上容易过拟合...

2018-12-16 14:27:36 191

原创 机器学习算法总结

一.逻辑回归逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。似然函数对数似然函数损失函数通过极大似然取反可以得到损失函数求解极大似然可得估计,梯度求解法优点实现简单 容易理解计算代价不高 速度快可得到样本概率函数缺点不能拟合非线性数据对多重共线性比较敏感二.支持向量机支持向量机特点:间隔最大,核函数...

2018-12-16 13:32:02 169

原创 机器学习评价指标(ACC,P,R,F1,AUC等)

分类TP:正例预测正确的个数FP:负例预测错误的个数TN:负例预测正确的个数FN:正例预测错误的个数准确率(accuracy)精确率(precision) 描述的是在所有预测出来的正例中有多少是真的正例准确率与精确率的区别:在正负样本不平衡的情况下,准确率这个评价指标有很大的缺陷。比如在互联网广告里面,点击的数量是很少的,一般只有千分之几,如果用acc,即使全部预测成负类(不点...

2018-12-15 22:24:01 41416 6

原创 聚类

1.KMeans聚类选择想要聚成多少组。随机初始化中心点,计算该点与每个组中心之间的距离,然后将该点分类为其中心最接近它的组,对每个数据点进行分类。基于这些分类点,我们通过取组中所有向量的均值来重新计算组中心。重复这些步骤进行一定数量的迭代,直到组中心在迭代之间没有太大变化。KMeans的优势在于它非常快,因为我们所做的只是计算点和组中心之间的距离。另一方面,KMeans有几个缺点。首先,必须...

2018-12-15 21:35:57 609

原创 机器学习基础知识点归纳

一.生成模型与判别模型1.概念介绍参考:https://blog.csdn.net/u012101561/article/details/52814571参考:http://www.cnblogs.com/fanyabo/p/4067295.html监督学习的任务是学习一个模型,对给定的输入预测相应的输出,监督学习模型可分为生成模型与判别模型。直观来说,生成模型学习的是联合概率分布P(X...

2018-12-15 18:08:04 927

原创 hadoop win10安装教程

点开链接https://github.com/sardetushar/hadooponwindows下面readme.md有1先第一步 下载2.解压(管理员)3.https://blog.csdn.net/tornadojava/article/details/56013420环境变量照着这篇博客设置下面是我的环境变量截图供参考path变量 :%JAVA_HOME%\bin;...

2018-12-15 14:08:12 3667 3

原创 python各种类型转换

1.将字符串中的list取出来变成listtemplist = ‘[10000人以上,本科,1-3年,Sql,Python,Excel]’templist.strip("[]").split(",")未完待续

2018-12-15 13:37:58 344 1

原创 数据库知识点

1.三范式:列不可拆分,唯一标识,引用主键2.字段类型介绍:int,bit,datetime,decimal(5,2),char/varchar/nvarchar字符串类型n的区别:有n表示unicode编码,每个字符占一个字节;没有n表示非unicode编码,英文或数字占一个字节,中文占两个字节字符串类型var的区别:有var表示可变长度;没有var表示不可变长度,如果长度不够,会在末尾...

2018-12-15 13:33:53 179

原创 sql server事务 锁 存储过程 索引 触发器

1.事务:保证一个多操作的事情全部完成,否则回到做之前的状态begin trybegin tran–设置反悔点,开启事务delete from UserInfo where UserId>5delete from ClassInfocommit tran–不反悔,提交事务end trybegin catchrollback tran–反悔啦,回滚事务end catch2....

2018-12-15 13:18:50 369

原创 sql server t-sql语句总结

1.声明变量declare @name nvarchar(10)–声明set @name=‘武大’–赋值print @name–输出2.查看全局变量print @@servernameselect @@version–查看当前数据库版本select * from ClassInfoinsert into ClassInfo values(‘四不像’);select @@IDENT...

2018-12-15 13:14:17 287

原创 sql server纵表变横表

例子一1.创建视图存储复杂的select语句create view Student_Scoreasselect stu.sName,sub.sTitle,score.scoreValuefrom ScoreInfo scoreinner join SubjectInfo sub on sub.sId=score.subIdinner join StudentInfo stu on s...

2018-12-15 13:11:17 1631

原创 Sql Server基本操作对数据库 表 视图

一.对数据库的操作1.查询系统所有数据库select * from sysdatabases2.删除某个数据库drop database dbtest3.创建某个数据库create database dbtestON PRIMARY( NAME = ‘dbtest’,FILENAME = ‘F:\dbtest.mdf’ ,SIZE = 5312KB ,MAXSIZE = U...

2018-12-15 13:05:55 506

原创 python画图显示中文字体

python画图显示中文字体import matplotlibmyfont = matplotlib.font_manager.FontProperties(fname=r"c:\windows\fonts\simsun.ttc", size=14)new=grouped_degree.size()counts = [x/np.sum(new.values)+0.2 for x in ne...

2018-12-14 09:32:31 3870

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除