houxiaoqin-CSDN博客

原创 spark for python : linux

spark for python : linux

2017-01-10 11:12:01 1239

原创虚拟机联网笔记

虚拟机联网：本地网络适配器中卸载VMware的netvmware: 编辑——虚拟网络适配器——还原默认设置：VMnet信息：桥接到自动打开centos虚拟机——虚拟机设置/网络适配器：NAT打开ubuntu虚拟机——虚拟机设置/网络适配器：NAT如果还不行，命令 $sudo dhclient eth0

2017-01-05 18:26:51 590

原创 Starting up PySpark for using python with Spark in eclipse

Q:Starting up PySpark for using python with Spark in eclipse?A:I started a new Python project in PyDev, then went into Project -> Properties -> PyDev - PYTHONPATH -> External libraries. I

2016-12-12 09:58:40 609

原创 mysql 远程数据库备份到本地 + mysql忘记密码

一、mysql 远程数据库备份到本地1. 远程数据库信息须知：ip地址（10.10.10.10）、用户名（root）、密码（101010）、要备份的数据库名（olddatabase）2. 本地数据库信息须知：本地地址（localhost）、用户名（root）、密码（010101）、备份至数据库newdatabase【已新建】cd 到d:/mysql/bin文件下cmd命令：

2016-09-28 18:00:06 1294

原创 python27连MySQL win64

http://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载MySQL_python-1.2.5-cp27-none-win_amd64.whlcmd 到文件下载位置“A:\软件安装包\python model installer packages”，键入 pip install ... 如图！python环境中 import MySQLdb

2016-09-20 16:50:34 1820

原创 java调.py文件指南

java调.py文件指南 1. demo.py存放在某目录下。如：D:\\eclipse_workspace\\student\\python1\\src\\py1\\demo.py2. 下载jython_installer-2.5.2.jar到某目录下。如：d:\\ jython_installer-2.5.2.jar; 下载地址：https://sourcefo

2016-08-31 00:05:43 1442

原创 python编码

解决python编码问题的参考链接 https://ss3.bdstatic.com/iPoZeXSm1A5BphGlnYG/icon/95583.png

2016-08-12 13:21:55 317

原创词性标注说明

代码名称eng英文单词Ag形语素a形容词ad副形词an名形词Bg区别语素b区别词c连词Dg副语素d副词e叹词f方位词g语素h前接成分i成语j

2016-03-24 13:04:39 1433

原创 python 对中文文件求交集、并集、差集

核心内容：1. set模块 intersection() ,union(), difference() 函数的使用2. 文件格式：一行一词, uft-83. 解决中文以str读入后转成list /set 时再以中文形式显示的问题 #!/usr/bin/python# -*- coding: utf-8 -*-import sysprint sys.getd

2016-03-19 15:32:51 1445

原创 win7 python gensim安装

推荐：http://radimrehurek.com/gensim pip install gensim安装前先安装：pip install numpy; pip install scipy安装失败解决办法：https://pypi.python.org/pypi/scipy打开链接并下载相应版本，解压后将scipy-0.17.0.dist-info以及scipy文件夹放到

2016-03-14 16:52:46 6962

原创 python学习笔记——文件操作

python文件操作流程：打开、读写、关闭1. 打开文件及打开方式file_obj = open('filename', 'mode')filename: 【1】原字符串 r' d:\text.t'【2】转义字串 'd:\\text.t'mode:【r/ w/ a/ +/ b】只读r; 可写 w; 此外还有a, +, b2.读写1. va

2016-02-10 01:30:35 462 1

原创 python学习笔记

python学习笔记（一）python语言基础1. python源程序扩展名 .py2. #!/user/bin/python 执行脚本时通知内容要启动的解释器（ shebang ）：原因是系统上程序要想启动执行起来通常表现为一个进程，进程需要向内核注册，内核生成taskstruct，进程才能运行。所以内核必须要理解可执行程序并把可执行程序执

2016-02-09 23:44:50 408

原创常识问题随记待持续更新

1. txt文件（utf-8）导入sql server乱码. 简单方法: txt文件另存为unicode格式

2015-12-26 13:09:19 429

原创 hive待续

hiveuse database;进入数据库show tables;显示所有表desc tablename;查看表结构drop table tablename;删除表create talbe tablename（id bigint, name string）; 创建表insert overwrite talbe tablename select 100, 'hell

2015-10-27 23:42:16 384

原创数据分析——数据标准化

一、为何要将数据标准化？为了消除量纲影响和变量自身变异大小和数值大小的影响，故将数据标准化。由于不同变量常常具有不同的单位和不同的变异程度。不同的单位常使系数的实践解释发生困难。例如：第1个变量的单位是kg，第2个变量的单位是cm，那么在计算绝对距离时将出现将两个事例中第1个变量观察值之差的绝对值（单位是kg）与第2个变量观察值之差的绝对值（单位是cm ）相加的情况。

2015-10-27 17:07:08 4936

原创大嘴巴漫谈笔记-抽样分布与假设检验

大嘴巴漫谈笔记-抽样分布与假设检验总体分布：所有元素出现概率的分布.样本分布：选择的样本在随机变量上的对应的频次分布,抽样分布：样本的函数分布，是样本统计量的概率分布【统计量是样本的函数，如：均值、求和、方差】总体思想：借助样本估计总体如何借助样本数据估计总体未知参数？答：参数估计参数估计常用两种方法：样本数据值叫观测值总体数据值叫理论论

2015-10-25 21:52:05 1088

原创 R连接SQL SERVER

1.配置SQL SERVER ODBC数据源操作系统搜索odbc/系统DSN/配置/server填远程服务器的IP...2.R代码Sys.setenv(JAVA_HOME='D:\\Programe Files\\WorkRelated Programs\\Java\\jdk1.7.0_21\\jre')library(rJava)library(RODBC)c

2015-10-15 17:30:00 766

原创大数据之数据挖掘理论笔记聚类问题之K-means

大数据之数据挖掘理论笔记聚类问题之K-means推荐参考博文： http://www.cnblogs.com/leoo2sk/archive/2010/09/20/k-means.html 推荐参考博文： http://blog.csdn.net/cyxlzzs/article/details/7416491 试过了，确实可运行。http://blog.csdn.net

2015-10-06 15:46:51 1734

原创大数据之数据挖掘理论笔记关联规则与Apriori算法

1. 引例——购物篮分析策略一：经常同时购买的商品临近摆放，如啤酒尿布；策略二：强关联商品可以摆放在商品的两端，可能诱发顾客一路挑选其他商品，如硬件和软件。2. 基本概念频繁模式：频繁地出现在数据集中的模式（如项集、子序列、子结构）。

2015-09-28 14:09:36 2193

原创 spss 异常值

spss 异常值剔除用什么方法: 1、可以通过“分析”下“描述统计“下“频率”的”绘制“直方图”，看图发现频数出现最少的值，就可能是异常值，但还要看距离其它情况的程度。2、可通过“分析”下的“描述统计”下的“探索”下的“绘制”选项的“叶茎图”，看个案偏离箱体边缘（上端、下端）的距离是箱体的几倍，“○”代表在1.5-3倍之间（离群点），“*”代表超过3倍（极端离群点）。3、可以

2015-09-06 11:44:11 26627

原创 HIVE学习笔记二精简版

HIVE学习笔记精简版学习资料：《Hive_user_guide》+ http://www.aahyhaa.com/archives/316+ http://blog.csdn.net/jiedushi/article/details/6778521 ...hive引入partition和bucket的概念，这两个概念都是把数据划分成块，分区是粗粒度的划分桶是细粒度的划分，这样做为

2015-09-01 14:58:15 479

原创 HIVE学习系列笔记一（精简版）

HIVE学习笔记精简版学习资料：《Hive_user_guide》+ http://jingyan.baidu.com/article/a378c96092cf56b328283006.html + ...Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模

2015-09-01 09:23:27 443

原创 python学习笔记一

python 高阶动态编程语言：语法简单，极其容易上手，集编译性和解释性为一体，面向对象，可扩展可嵌入性，免费开源，可移植于各种平台，具有丰富的库。python与shellshell编程python文本处理python文件类型源代码 .py为扩展名，不需要编译字节代码 .pyc，编译方法 import py_compilepy_compile.compile

2015-08-22 13:49:26 349

原创解决txt导入sql server数据库乱码问题

解决txt导入数据库乱码问题原则：上传的文本的编码跟上传服务器的编码要一致一、查数据库服务器编码SQLserver：SELECT COLLATIONPROPERTY('Chinese_PRC_Stroke_CI_AI_KS_WS', 'CodePage') 下面是查询结果： 936 简体中文GBK 950 繁体中文BIG5 437 美国/加拿大英语

2015-08-20 18:11:12 13364 2

原创网络数据流量分析

网络流量分析1. 基本概念IP地址域名（主机机器名.单位名.网络名.顶层域名）服务器/主机（Apache最常用的网络服务器）客户机2. 对于每一个请求，服务器在日志文件中记录下用户信息：用户IP提交请求的日期时间用户请求内容（HTML页面、GIF图像）网络服务器对于该请求返回的状态信息服务器返回给用户的内容的大小(字节)该请求的引用

2015-08-18 08:33:21 11766

原创自我总结数据分析师必读

数据分析1. 所有分析要从结果出发，没有结论的数字罗列不是分析；2. 数据分析建立在业务模型的基础上3. 数据分析是基础数据严谨的分析过程数据分析是为了获取有用信息，利用统计方法对大数据进行分析研究的过程。数据分析一定以业务分析为目的。初级数分：描述性统计分析；高级数分：相关分析、回归分析、因子分析等1. 学会用业务的思维去使用技术2. 简

2015-08-17 13:46:33 1712

原创数据分析技术问答集锦补充ing

社区问答集锦——待续1. 有4组数据每两组单位是一样的怎样把这一个月的4组数据制作成折线图，感觉做不了啊，单位不一样，用excel？3个不一样的单位怎么弄? 答：把两个相同单位的放到主坐标，另外两个放到次坐标。不一样的单位做在一起有可比性么？如果没有关联的, 未必要做在一个图上。 2.

2015-08-17 11:57:30 577

原创数据分析与数据挖掘入门

数据分析：使用统计方法对收集的大量数据进行分析、理解，达到业务分析的目标。数据分析是为了获取有用的信息和结论而对数据进行分析和研究的过程首应该有一个业务的观点，业务分析才是目的和导向，数据分析只是一个手段、数分工作内容：描述发生了什么事----描述性报告：常规报表，即席查询，多维分析，警报。为什么发生----探索性报告：统计分析未来发展如何----预测性报告

2015-08-17 02:29:36 1269

原创数据挖掘学习笔记——十大算法之决策树算法、逻辑回归概述

数据挖掘——分类分类：有监督的学习聚类：无监督的学习分类过程：使用类标签已知的样本去建立分类函数或分类模型，应用分类模型能把数据库中的类标签未知的数据进行归类。分类二阶段：分类是过程，预测（决策变量是类标签，此处为广义预测）是目的。分类算法：决策树、逻辑回归、神经网络、支持向量机、贝叶斯分类、KNN（K近邻）、随机森林。分类应用：流失预测

2015-08-17 01:54:56 7253

原创互联网电商大数据环境 ——大数飓数据分析实践培训精华笔记(九)——电商核心业务知识之订单商品模块

商品信息汇总表select user_id, sum(casewhen pay_type not in (‘退货’,’拒收’) then goods_amountend) p_sales_cnt,-排除退拒销售数量sum(casewhen pay_type not in (‘退货’,’拒收’) then goods_price * go

2015-08-14 13:42:31 1619

原创互联网电商大数据环境 ——大数飓数据分析实践培训精华笔记(八)——电商核心业务知识之订单商品模块三

订单指标表计算#!/bin/bash#======#dm_b2c_orders_goods.sh 这里用shell来调用SQL#订单指标表计算#======DT=`date -d '-1 day' "+%Y-%m-%d" `注意date -d ‘-1 day’表示取前一天或者sysdate=`date "+%Y-%m-%d"`脚本传参数法

2015-08-14 13:37:13 1985

原创互联网电商大数据环境 ——大数飓数据分析实践培训精华笔记(七)——电商核心业务知识之订单商品模块

订单宽表#!/bin/bash#======#dm_b2c_orders.sh 这里用shell来调#订单宽表——两个表关联#======DT=`date -d '-1 day' "+%Y-%m-%d" `注意date -d ‘-1 day’表示取前一天或者sysdate=`date "+%Y-%m-%d"`脚本传参数法if [$1];

2015-08-14 13:26:20 1581

原创互联网电商大数据环境 ——大数飓数据分析实践培训精华笔记(六)——电商核心业务知识之订单商品模块

电商核心业务知识订单商品模块（9张表）--订单主要信息表drop table if exists itqsc.ods_b2c_orders;create external table itqsc.ods_b2c_orders(order_id bigint, -订单ID（主键）order_no string, -订单号order_date timestam

2015-08-13 14:26:12 1541 1

原创 hadoop学习笔记 Hive执行生命周期

Hive内存存储格式 TextFile：默认数据不做压缩，磁盘开销大数据解析开销大，可用Stored as Textfile指定。SequenceFile：使用方便、可分割、可压缩，可供多个mapper并发读取。可使用stored as sequencefile指定。SequenceFile支持三种压缩选择：none,record,block.RCFile：列式存储方式，数据加

2015-08-13 10:39:10 1402

原创 hadoop学习笔记之HiveSQL 数据查询

数据查询select [all | distinct] select_expr, ...from table_reference[where where_condition][group by col_list][cluster by col_list] | [distribute by col_list] [sort by col_list][limit numb

2015-08-13 09:09:16 723

原创 hadoop学习笔记之HiveSQL DML

DMLload data [local] inpath 'filepath' [overwrite] into table tablename [partition (partcol1=val1, partcol2=val2...)]insert overwrite table tablename1 [partition (partcol1=val1, partcol2=v

2015-08-13 08:34:37 498

原创 hadoop学习笔记之HiveSQL DDL

Hive SQL1. Numeric Types: tinyint/smallint/int/bigint/float/double/decimal2. Date/Time Types: timestamp/date3. String Types: string/varchar/char4. Misc Types: boolean/binary5. Complex Ty

2015-08-13 00:46:23 537

原创 hadoop学习笔记 Hive的cli与Commands

Hive的cli与CommandsHive：进入交互界面create database temp: 创建数据库hive-database temp: 默认是直接进行Default数据库，如果加了-database temp直接进入这个数据库use default: 数据库间的切换常用终端命令：Qiut /exit 退出Set/ set-v /reset

2015-08-12 14:57:26 479

原创 hadoop学习笔记 Hive和普通关系数据库比较

Hive和普通关系数据库比较1.查询语言 HiveSQL2.数据存储位置 Hive是建立在hadoop之上，数据存储在HDFS中；mySQL可以将数据保存在块设备或者本地文件系统中。3.数据格式：Hive中没有专门定义的数据格式。数据格式可以由用户指定，用户定义数据格式需要指定三个属性：列分隔符("\t")、行分隔符（"\n"）、读取文件数据的方法（TextFile、Seq

2015-08-12 14:14:27 2400

原创 hadoop学习笔记 HIVE

Hive是hadoop项目中的子项目，被视为一个数据仓库工具，可以将结构化的数据文件映射为一张数据表，并可以将SQL语句转换为MapReduce任务进行运行。优点：学习成本低，可以通过类SQL语句快速实现简单的MapReduce应用，十分适合数据仓库的统计分析。Hive进入hive的cli: hiveShow tables; Create table temp.itqs

2015-08-12 11:53:57 463

scipy , gensim for python2.7 (windows)

scipy , gensim for python2.7 (windows) 安装参考http://blog.csdn.net/houxiaoqin/article/details/50887858

2016-03-15

from sklearn.datasets import fetch_20newsgroups操作时需要下载文本数据20newsgroups，若发生下载url获取失败，应对方法：打开site-packages/sklearn/datasets下的twenty_newsgroups.py文件，找到download_20newsgroups方法，注释掉其中url相关苦干行控制下载的语句。运行后提示c://user//...，按提示在c://user//...下新建文件夹scikit_learn_data，将20news-bydate.tar.gz解压好的文件放入即可。

2016-08-03

eclipse平台python开发

1.把zip解压到eclipse目录下，把features和plugins覆盖; 重启eclipse后在eclipse的window->perperence里能够看到pydev,点击Interpreter -Python, NEW Python Interpreters, 输入python安装路径； 2.测试的话：new->other project->pydev->选择pydev project，创建"HelloPython"工程，"HelloPython"包，上测试代码。

2016-07-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人