- 博客(4)
- 资源 (1)
- 收藏
- 关注
原创 机器学习--KNN算法
优点:精度高、对异常数值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高。使用范围:数值型和标称型。工作原理:存在一个样本数据集合,也称作训练样本,并且样本中每个数据都存在标签,即我们知道本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最邻近)的分类标签。一般来说,只选择样本数据
2017-02-09 10:45:17 341
原创 Kylin 使用RESTful API进行cube的增量更新
一、生成鉴权文件,之后每一步都需要使用cookfile.txtcurl -c cookfile.txt -X POST \-H "Authorization:Basic QURNSU46S1lMSU4=" \-H "Content-Type: application/json" \http://hostname:7070/kylin/api/user/authenticationADMIN:K
2017-01-16 18:13:32 5455
原创 ELK日志管理平台
一、企业中的日志日志主要包括系统日志、应用程序日志和安全日志。每条日志都记载着时间戳、主机名、使用者及操作行为等相关的描述,系统运维和开发人员可以通过日志了解服务器软硬件信息、检查配置过程中的错误及错误发生的原因。经常分析日志可以了解服务器的负荷,性能安全性,及时分析问题、追查错误根源纠正错误。 在大数据时代,日志数量巨大,种类多样化,企业数据就如同一座亟待开发的金矿;日志的统
2017-01-12 20:32:24 7630 1
原创 python解析url的关键字
近期刚接触python,主要于分析网站用户访问的日志,其中涉及到解析日志中的关键字。该业务主要需要解决以下几个问题: 1、访客使用的搜索引擎关键字标志不同,如百度中搜索‘大数据’ https://www.baidu.com/s?f=8&rsv_bp=1&rsv_idx=1&word=%E5%A4%A7%E6%95%B0%E6%8D%AE&tn=91483420_
2017-01-03 17:51:29 3559
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人