- 博客(24)
- 资源 (23)
- 收藏
- 关注
原创 【数据平台】python数据集连接和组合
场景:dataframe之间的链接,以及list之间的组合。参考:# -*- coding: utf-8 -*-'''Created on 2017年9月30日@author: Administrator'''import pandas as pdimport itertoolsfrom itertools import product#mergedf1=pd.Dat
2017-09-30 11:16:39 633
原创 【数据挖掘笔记五】数据立方体技术
5.数据立方体技术数据仓库系统在各种粒度上为多维数据的交互分析提供OLAP工具,OLAP工具使用数据立方体和多维数据模型对汇总数据提供灵活的访问,因此重点要关注数据立方体的技术。数据立方体技术包括数据立方体的计算方法方法和多维数据分析方法。数据立方体技术对于数据挖掘也是有用的。多维数据挖掘是基于OLAP的数据分析与知识发现技术集成再一起的。多维数据挖掘,通过探查多维空间中的数据来搜索有趣的
2017-09-30 10:16:33 10754
原创 【数据平台】同一mysql主机不同数据库建复制表
场景:mysql服务器同一台,要从 a 数据库中把表 t 复制到数据库 b 中。进入数据库b,执行:语句:create table t like a.t;INSERT t SELECT * FROM a.t;
2017-09-27 12:49:53 965
原创 【知识发现】python开源哈夫曼编码库huffman
1、哈夫曼树: 安装:pip install huffman Github地址: https://github.com/nicktimko/huffman pypi地址:https://pypi.python.org/pypi/huffman 源码很值得参考。2、案例:# -*- coding: utf-8 -*-'''Creat
2017-09-27 09:27:20 2953 1
原创 【数据平台】sqoop支持hive和mysql互导的基本语句格式
1)从mysql导入到hive的命令格式:sqoop import --connect jdbc:mysql://slave4:3306/seewo_rec --username mysql(mysql用户名) --password 123456(密码) --table student(mysql上的表) --hive-import -m 1导入到hive默认的default库,指定数据库
2017-09-25 15:05:46 571
原创 【数据平台】关于Hadoop集群namenode format安全事故
1、问题:重启namenode后提示连接失败,居然执行了format命令,出现了很严重的安全事故。2、教训:对于生产集群,一定要建立运维安全体系,对于高危命令要做权限控制。3、对于备份的理解: 1)由于所操作的集群namenode和secondary namenode是同一台机子,secondary只发挥在namenode当机下充当namenode的作用,而没有独立保存元数据
2017-09-25 14:13:00 412
原创 【正一专栏】读《江村经济》——献给妻子的书
读《江村经济》——献给妻子的书 原创 2017-09-24 九天 九天时空费孝通是我国著名的社会学家,我国社会学的鼻祖。费孝通先生有几本基本社会学经典著作,《乡土中国》,《江村经济》,《文化的生与死》,《怎样做社会研究》发现这十年来,我除了《文化的生与死》没买之外,其他三本书都买过,但是基本都没怎么看。人到一定的年龄、思想有不同的变化,看不同的书,三十而立、四十而不惑的
2017-09-25 07:48:49 997
原创 【正一专栏】钱都从哪里来的?
钱都从哪里来的? 原创2017-09-22 九天九天时空 银行的利润又创出新高,金融业从业人员的工资最高,这表明银行还是最挣钱的行业,他们基本都是无本起义,空手套白狼啊。可今年房贷的比重下降了,下半年基本都很难申请到房贷,房贷利率都在上浮,好多企业说不要贷款了。这就奇怪了,银行能挣钱,靠的是什么,就是放贷,银行不贷款出去,怎么可能挣到钱呢?那么挣到了钱,肯定是放贷了,放贷放到哪
2017-09-23 08:01:03 602
原创 【正一专栏】从中超走向世界领先的保利尼奥
从中超走向世界领先的保利尼奥原创 2017-09-20 九天 保利尼奥又进球了,一个精彩的头球,还有一次给梅西的助攻,在今天凌晨结束的西甲比赛中,保利尼奥又打出风头,今天一天到处都是中国的球迷在吹保利尼奥,风头都盖过了上演大四喜的梅西。当初质疑保利尼奥加盟巴萨的人都被疯狂的打脸,巴萨用自己的坚持赢得了赞誉,从中超的大腿到世界上最好的球队巴萨中场主力,
2017-09-21 08:55:25 699
原创 【正一专栏】从“欣欣像蓉”谈网络暴力
从“欣欣像蓉”谈网络暴力原创 2017-09-19 九天 九天时空最近“”欣欣像蓉”这个词很火的,说的是马蓉和翟欣欣,都是玩弄男人与股掌间,一个要钱,一个要命,甚至被打上了现代潘金莲的标签。但是事情发展到现在她们两人成了人人喊打的过街老鼠,与网络无处不在的网络暴力无不充满了关系。也从另一个侧面证明,中国还是一个男权主义的社会。问一个女性朋友,你有没有想过,人们为何那么恨马蓉和翟
2017-09-20 08:02:44 975
原创 【正一专栏】登贝莱,该不该来!
登贝莱,该不该来!原创 2017-09-18 九天 九天时空被认为史上夏季转会市场最被动操作的巴萨,尤其是在西班牙超级杯被皇马两回合双杀后,每个人都不看好巴萨的时候,巴萨在联赛中取得了4连胜、另外在欧冠中也大胜了克星尤文图斯队,新赛季显示出良好的状态。再次证明巴萨只要核心和团队精神还在,巴萨就可以战胜一切对手。巴萨为何能取得五连胜呢?巴萨的中场控制力加强:巴
2017-09-19 08:14:16 1105
原创 【知识发现】基于用户的协同过滤推荐算法python实现
1、协同过滤推荐算法分为两类,分别是基于用户的协同过滤算法(user-based collaboratIve filtering),和基于物品的协同过滤算法(item-based collaborative filtering)。 1)基于用户的协同过滤算法是通过用户的历史行为数据发现用户对商品或内容的喜欢(如商品购买,收藏,内容评论或分享),并对这些喜好进行度量和打分。根据
2017-09-18 18:56:10 2174 7
原创 【知识发现】隐语义模型LFM算法python实现(一)
1、隐语义模型:物品:表示为长度为k的向量q(每个分量都表示 物品具有某个特征的程度)用户兴趣:表示为长度为k的向量p(每个分量都表示 用户对某个特征的喜好程度)用户u对物品i的兴趣可以表示为:其损失函数定义为: 使用随机梯度下降,获得参数p,q。负样本生成:对于只有正反馈信息(用户收藏了,关注了xxx)的数据集,需要生成负样本,原则如下1)生成的负样本要和正样本...
2017-09-18 09:52:18 4809 27
原创 【数据挖掘知识点三】大数定理与中心极限定理
知识点:大数定理与中心极限定理大数定理与中心极限定理是与统计学密切相关的重要数学定理,为抽样推断提供了数学理论基础。1、大数定理即当n充分大时,事件A发生的频率接近(依概率收敛于)事件A发生的概率,反映了频率在大量重复试验过程中的稳定性。该定理称为贝努力大数定理,它提供了用频率代替概率的理论依据。大数定理表明:尽管个别现象受偶然因素影响,有各自不同的表现;但
2017-09-16 11:45:05 1361
原创 【数据挖掘笔记四】数据仓库和联机分析处理
4.数据仓库和联机分析处理数据仓库泛化、合并多维空间的数据。构造数据仓库涉及数据清理、数据集成和数据变换,是数据挖掘的预处理步骤。数据仓库提供联系分析处理(OLAP)工具,用于各种粒度的多维数据的交互分析,助力数据泛化和数据挖掘,可以和数据挖掘功能集成,如关联、聚类、分类和预测,用以加强多个抽象层上的交互知识挖掘。数据仓库是数据分析和联系数据分析处理的重要平台,并为数据挖掘提供有效平台,构
2017-09-15 12:53:59 4885
原创 【正一专栏】马蓉到底对王宝强还有啥感情?
马蓉到底对王宝强还有啥感情?新闻要连起来看才有意思,昨天消沉许久的王宝强离婚事件有了最新的进展,王宝强的前助理宋喆因为涉嫌职务犯罪而被刑事拘留,这真是大快人心、吃王宝强的喝王宝强的,还抢王宝强的老婆,最后连王宝强的公司都要抢去,这样的人一直逍遥法外,真是太没天理了。接下来对于王宝强和马蓉的离婚案也有了最新的进展,马蓉说自己对王宝强还有感情,不同意离婚。广大吃瓜群众把刚才
2017-09-15 08:26:06 775
原创 【数据平台】基于pymysql库python连接mysql
1、场景:python连接mysql的API使用pymysql库 https://pypi.python.org/pypi/PyMySQL/ 安装:pip install pymysql 即可2、代码示例:#!/usr/bin/env python# --coding = utf-8# Author Jason.Fimport pymysql
2017-09-14 15:03:24 352
原创 【数据平台】基于pyhs2库Python作为client driver连接HiveServer
1、安装pyhs2A Python client driver for HiveServer2 is available at https://github.com/BradRuderman/pyhs2 (thanks, Brad). It includes all the required packages such as SASL and Thrift wrappers.The drive
2017-09-13 17:36:36 533
原创 【数据平台】Eclipse+Scala远程开发调试关于hostname的问题
1、代码:import org.apache.spark.SparkConfimport org.apache.spark.SparkContextobject wc { def main(args : Array[String]){ System.setProperty("hadoop.home.dir", "D:\\dev\\hadoop-2.7.4"); val
2017-09-13 09:43:05 508
原创 【正一专栏】榆林产妇和程序员苏享茂怎样你们都不该去死
榆林产妇和程序员苏享茂怎样你们都不该去死最近两起跳楼身亡事件,引起了全社会极大的关注,可谓是一波未平一波又起,陕西榆林产妇跳楼身亡引起了全社会的舆论关注,连国家卫计委都介入调查之中,最新消息是事发医院的负责人和科室主任已经被停职接受调查。而WebPhone的创始人苏享茂因不堪忍受前妻的敲诈勒索而选择跳楼自杀的事件,更是在互联网上引起了轩然大波,网民的关注点更多,到底是先有渣男,还是
2017-09-13 08:13:20 1328
原创 【数据平台】Eclipse+MapReduce开发环境(集群运行模式)
Eclipse+MapReduce开发环境集群部署centos+jdk1.8+Hadoop2.7.2;开发端windows+Eclipse Mars.1 Release (4.5.1)1)hadoop-eclipse-plugin插件需要编译,可用网上现成,这里找到hadoop-eclipse-plugin-2.7.2.jar下载(要注意编译plugin的jdk版本,后面eclip
2017-09-11 17:50:58 425
原创 【数据平台】Eclipse+Scala开发环境(本机和集群两个运行模式)
1)环境:集群部署centos+jdk1.8+spark-1.5.0+Scala-2.11.8;开发端windows+Eclipse Mars.1 Release (4.5.1)2)安装eclipse-scala-plugin插件http://scala-ide.org/download/prev-stable.html下载版本:解压后将features和plugi
2017-09-11 16:07:21 342
原创 【正一专栏】今晚国足能上演奇迹吗?
今晚国足能上演奇迹吗?亚洲区12强赛今晚将上演最后的末路狂奔,谁能塔上去明年世界级的班车,谁最终将被淘汰,都将在今晚揭晓。对于国足,我们无需要求太多,上一轮在武汉、国足硬是拼来一场胜利,给自己保留住了理论上的希望,这一场还是希望国足继续拼出个未来,展现国足的精神风采取得一场大胜,然后再看上天是否会给我们再一个奇迹。最好的结果——国足继续世界杯梦幻之旅
2017-09-06 08:20:13 488
原创 【正一专栏】警察叔叔,我还是只是一个婴儿
警察叔叔,我还是只是一个婴儿上海警察在执法过程中以标准性的动作制服抗法的妇女,顺便把妇女手中的孩子摔倒在地上!你摔倒的不仅是一个抗法的妇女和一个无辜的孩子,而是人民警察这神圣的招牌!还有所有人民对你们的信任!下面以被摔孩子的口吻写下这篇“警察叔叔,我还是只是一个婴儿”,谈谈对此事的看法。今天是9月1日,新学期的第一天,看着哥哥姐姐都开开心心地去上学了,我想等我长大了
2017-09-04 08:15:35 426
HMM的java开发库Javajahmm-0.6.1
2017-05-16
EasyPR-JavaCV包
2016-09-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人