2015年08月_houxiaoqin

12月 10月 09月 08月

原创 python学习笔记一

python 高阶动态编程语言：语法简单，极其容易上手，集编译性和解释性为一体，面向对象，可扩展可嵌入性，免费开源，可移植于各种平台，具有丰富的库。python与shellshell编程python文本处理python文件类型源代码 .py为扩展名，不需要编译字节代码 .pyc，编译方法 import py_compilepy_compile.compile

2015-08-22 13:49:26 304

原创解决txt导入sql server数据库乱码问题

解决txt导入数据库乱码问题原则：上传的文本的编码跟上传服务器的编码要一致一、查数据库服务器编码SQLserver：SELECT COLLATIONPROPERTY('Chinese_PRC_Stroke_CI_AI_KS_WS', 'CodePage') 下面是查询结果： 936 简体中文GBK 950 繁体中文BIG5 437 美国/加拿大英语

2015-08-20 18:11:12 13133 2

原创网络数据流量分析

网络流量分析1. 基本概念IP地址域名（主机机器名.单位名.网络名.顶层域名）服务器/主机（Apache最常用的网络服务器）客户机2. 对于每一个请求，服务器在日志文件中记录下用户信息：用户IP提交请求的日期时间用户请求内容（HTML页面、GIF图像）网络服务器对于该请求返回的状态信息服务器返回给用户的内容的大小(字节)该请求的引用

2015-08-18 08:33:21 11485 1

原创自我总结数据分析师必读

数据分析1. 所有分析要从结果出发，没有结论的数字罗列不是分析；2. 数据分析建立在业务模型的基础上3. 数据分析是基础数据严谨的分析过程数据分析是为了获取有用信息，利用统计方法对大数据进行分析研究的过程。数据分析一定以业务分析为目的。初级数分：描述性统计分析；高级数分：相关分析、回归分析、因子分析等1. 学会用业务的思维去使用技术2. 简

2015-08-17 13:46:33 1641

原创数据分析技术问答集锦补充ing

社区问答集锦——待续1. 有4组数据每两组单位是一样的怎样把这一个月的4组数据制作成折线图，感觉做不了啊，单位不一样，用excel？3个不一样的单位怎么弄? 答：把两个相同单位的放到主坐标，另外两个放到次坐标。不一样的单位做在一起有可比性么？如果没有关联的, 未必要做在一个图上。 2.

2015-08-17 11:57:30 557

原创数据分析与数据挖掘入门

数据分析：使用统计方法对收集的大量数据进行分析、理解，达到业务分析的目标。数据分析是为了获取有用的信息和结论而对数据进行分析和研究的过程首应该有一个业务的观点，业务分析才是目的和导向，数据分析只是一个手段、数分工作内容：描述发生了什么事----描述性报告：常规报表，即席查询，多维分析，警报。为什么发生----探索性报告：统计分析未来发展如何----预测性报告

2015-08-17 02:29:36 1224

原创数据挖掘学习笔记——十大算法之决策树算法、逻辑回归概述

数据挖掘——分类分类：有监督的学习聚类：无监督的学习分类过程：使用类标签已知的样本去建立分类函数或分类模型，应用分类模型能把数据库中的类标签未知的数据进行归类。分类二阶段：分类是过程，预测（决策变量是类标签，此处为广义预测）是目的。分类算法：决策树、逻辑回归、神经网络、支持向量机、贝叶斯分类、KNN（K近邻）、随机森林。分类应用：流失预测

2015-08-17 01:54:56 7142

原创互联网电商大数据环境 ——大数飓数据分析实践培训精华笔记(九)——电商核心业务知识之订单商品模块

商品信息汇总表select user_id, sum(casewhen pay_type not in (‘退货’,’拒收’) then goods_amountend) p_sales_cnt,-排除退拒销售数量sum(casewhen pay_type not in (‘退货’,’拒收’) then goods_price * go

2015-08-14 13:42:31 1568

原创互联网电商大数据环境 ——大数飓数据分析实践培训精华笔记(八)——电商核心业务知识之订单商品模块三

订单指标表计算#!/bin/bash#======#dm_b2c_orders_goods.sh 这里用shell来调用SQL#订单指标表计算#======DT=`date -d '-1 day' "+%Y-%m-%d" `注意date -d ‘-1 day’表示取前一天或者sysdate=`date "+%Y-%m-%d"`脚本传参数法

2015-08-14 13:37:13 1943

原创互联网电商大数据环境 ——大数飓数据分析实践培训精华笔记(七)——电商核心业务知识之订单商品模块

订单宽表#!/bin/bash#======#dm_b2c_orders.sh 这里用shell来调#订单宽表——两个表关联#======DT=`date -d '-1 day' "+%Y-%m-%d" `注意date -d ‘-1 day’表示取前一天或者sysdate=`date "+%Y-%m-%d"`脚本传参数法if [$1];

2015-08-14 13:26:20 1538

原创互联网电商大数据环境 ——大数飓数据分析实践培训精华笔记(六)——电商核心业务知识之订单商品模块

电商核心业务知识订单商品模块（9张表）--订单主要信息表drop table if exists itqsc.ods_b2c_orders;create external table itqsc.ods_b2c_orders(order_id bigint, -订单ID（主键）order_no string, -订单号order_date timestam

2015-08-13 14:26:12 1492 1

原创 hadoop学习笔记 Hive执行生命周期

Hive内存存储格式 TextFile：默认数据不做压缩，磁盘开销大数据解析开销大，可用Stored as Textfile指定。SequenceFile：使用方便、可分割、可压缩，可供多个mapper并发读取。可使用stored as sequencefile指定。SequenceFile支持三种压缩选择：none,record,block.RCFile：列式存储方式，数据加

2015-08-13 10:39:10 1352

原创 hadoop学习笔记之HiveSQL 数据查询

数据查询select [all | distinct] select_expr, ...from table_reference[where where_condition][group by col_list][cluster by col_list] | [distribute by col_list] [sort by col_list][limit numb

2015-08-13 09:09:16 683

原创 hadoop学习笔记之HiveSQL DML

DMLload data [local] inpath 'filepath' [overwrite] into table tablename [partition (partcol1=val1, partcol2=val2...)]insert overwrite table tablename1 [partition (partcol1=val1, partcol2=v

2015-08-13 08:34:37 474

原创 hadoop学习笔记之HiveSQL DDL

Hive SQL1. Numeric Types: tinyint/smallint/int/bigint/float/double/decimal2. Date/Time Types: timestamp/date3. String Types: string/varchar/char4. Misc Types: boolean/binary5. Complex Ty

2015-08-13 00:46:23 505

原创 hadoop学习笔记 Hive的cli与Commands

Hive的cli与CommandsHive：进入交互界面create database temp: 创建数据库hive-database temp: 默认是直接进行Default数据库，如果加了-database temp直接进入这个数据库use default: 数据库间的切换常用终端命令：Qiut /exit 退出Set/ set-v /reset

2015-08-12 14:57:26 438

原创 hadoop学习笔记 Hive和普通关系数据库比较

Hive和普通关系数据库比较1.查询语言 HiveSQL2.数据存储位置 Hive是建立在hadoop之上，数据存储在HDFS中；mySQL可以将数据保存在块设备或者本地文件系统中。3.数据格式：Hive中没有专门定义的数据格式。数据格式可以由用户指定，用户定义数据格式需要指定三个属性：列分隔符("\t")、行分隔符（"\n"）、读取文件数据的方法（TextFile、Seq

2015-08-12 14:14:27 2329

原创 hadoop学习笔记 HIVE

Hive是hadoop项目中的子项目，被视为一个数据仓库工具，可以将结构化的数据文件映射为一张数据表，并可以将SQL语句转换为MapReduce任务进行运行。优点：学习成本低，可以通过类SQL语句快速实现简单的MapReduce应用，十分适合数据仓库的统计分析。Hive进入hive的cli: hiveShow tables; Create table temp.itqs

2015-08-12 11:53:57 421

原创 hadoop学习笔记 Hadoop工作过程（待完善）

Hadoop工作过程（待完善）MAP实现类实现split (InputFormat类)实现map (mapper类)实现combiner (Combiner类)实现shuffle (Partitioner类)REDUCE实现类实现reduce (Reducer类)实现输出 OutputFormat类HDFS终端命令User Comma

2015-08-12 11:00:00 481

原创 hadoop学习笔记 Hadoop进程

Hadoop进程Namenode ——HDFS的守护程序记录文件是如何分割成数据块及这些数据块被存储到哪些节点；对内存和I/O进行集中管理；是个单点，发生故障将使集群崩溃；协调客户端对文件的访问；管理文件系统的命名空间，记录命名空间内的改动或空间本身属性的改动，记录每个文件数据块在各个Datanode上的位置和副本信息；Namenode 使用事务日志记录HDFS

2015-08-12 09:29:35 866

原创 hadoop学习笔记 YARN

YARNyet another resource negotiator缩写YARN基本思想：将JobTracker两个主要功能（资源管理和作业调度/监控）分成两个独立进程。两个组件：全局ResourceManager和与每个应用相关的ApplicationMaster。ResourceManager和NodeManager（每个节点一个）共同组成整个数据计算框架。ResourceM

2015-08-12 08:40:22 562

原创 hadoop学习笔记 MapReduce + HDFS

hadoop: map reduce+hdfs+hbaseMapReduce一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念“Map(映射)”和“Reduce(規約)”，和他們的主要思想，都是從函數式編程語言裡借來的，還有從矢量編程語言裡借來的特性。方便編程人員在不會分佈式並行編程的情況下，將自己的程序運行在分佈式系統上。當前的軟件實現是指定一個map映射函數，用來

2015-08-12 08:14:55 695

原创互联网电商大数据环境 ——大数飓数据分析实践培训精华笔记(五)——数据仓库维度建模实例

维度建模实例库存管理业务建模案例1. 选定某一业务过程，如：库存管理业务2.根据各用户的需求（关注的主题），定义该业务处理的粒度。主题一：矿厂中每种产品库存水平的日快照主题二：每种特定产品的仓库库存事务每日情况主题三：每种特定产品每日的入库装运情况3.选定每个事实表维度库存水平　　　事实表维度：日期、矿厂、产品仓库库存事务　事实表维度：日期、仓库、产品、

2015-08-12 01:11:44 3449

原创互联网电商大数据环境 ——大数飓数据分析实践培训精华笔记(四)——维度建模基础理论

维度建模基础理论事实表事实表保存了大量业务度量数据（即事实）的表。最有用的事实是数字类型、可加类型。事实表以粒度化分：事务粒度事实表（细）、周期快照粒度事实表、累积快照粒度事实表（粗）。事实表的粒度决定了数据仓库中数据的详细程度。事实表中一般只存放数字或标志用来做统计，如数量、收益事实表举例：维ID，维ID，收益，数量，支出，毛利维度表用户分析数据的

2015-08-11 15:47:27 1418

原创互联网电商大数据环境 ——大数飓数据分析实践培训精华笔记(三)——数据仓库理论

数据仓库理论DW定义数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支撑管理决策。1.聚焦决策者的数据建模与分析，排除对决策无用的数据2.集成异种数据源，数据一致性（关系数据库+一般文件+联机事务处理记录）3.相对稳定：数据仓库的数据只添加罕更新保证数据稳定。通常需要三种数据访问：数据初始化装入、数据的添加和数据查询访问。4.反映历史变化。

2015-08-11 15:00:41 988

原创互联网电商大数据环境 ——大数飓数据分析实践培训精华笔记(二)——BI构建

BI构建BI应用架构BI底层：数据源——ETL——BI数据仓库 BI服务：交互式信息板、报告并发布、即席分析、预先检测和警报、离线分析、MS Office插件、Web服务BI应用：销售、服务和联系中心、市场营销、订单管理和执行、供应链、财务、人力资源BI系统架构数据采集层－－ETL－－数据整合层——前端展示层数据采集层：（ERP系统、CPP系统、TIME

2015-08-11 13:37:47 1133

原创互联网电商大数据环境 ——大数飓数据分析实践培训精华笔记(一)——简介入门

互联网电商大数据环境——数据分析实践培训精华笔记(一)工作内容项目：DW数据库建设/经分/客户精准营销/推荐系统需求/移动端数据分析数据：流量数据/交易数据B2C/会员与活动数据/物流与配送数据/内部财务数据数据产品举例：淘宝数据魔方/腾讯用户画像/京东罗盘/客户标签工作事宜平台工作：系统不好用/上线/工具开发/权限控制/开发监控程序/报错数据开发：抽取

2015-08-11 09:56:18 2474

from sklearn.datasets import fetch_20newsgroups操作时需要下载文本数据20newsgroups，若发生下载url获取失败，应对方法：打开site-packages/sklearn/datasets下的twenty_newsgroups.py文件，找到download_20newsgroups方法，注释掉其中url相关苦干行控制下载的语句。运行后提示c://user//...，按提示在c://user//...下新建文件夹scikit_learn_data，将20news-bydate.tar.gz解压好的文件放入即可。

2016-08-03

eclipse平台python开发

1.把zip解压到eclipse目录下，把features和plugins覆盖; 重启eclipse后在eclipse的window->perperence里能够看到pydev,点击Interpreter -Python, NEW Python Interpreters, 输入python安装路径； 2.测试的话：new->other project->pydev->选择pydev project，创建"HelloPython"工程，"HelloPython"包，上测试代码。

2016-07-24

scipy , gensim for python2.7 (windows)

scipy , gensim for python2.7 (windows) 安装参考http://blog.csdn.net/houxiaoqin/article/details/50887858

2016-03-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人