花名:白起

科技改变世界,技术改变人生。

Linux非root用户安装Python及相关库

前提准备工作,通过root安装 yum install -y tkinter tk-devel gcc 下面是普通用户操作(用户lilei) 1、安装python python版本库https://www.python.org/ftp/python/,此处我选择2.7.9版本的...

2017-07-12 15:11:39

阅读数:2298

评论数:1

Python正则表达式re模块简明笔记

简介 正则表达式(regular expression)是可以匹配文本片段的模式。最简单的正则表达式就是普通字符串,可以匹配其自身。比如,正则表达式 ‘hello’ 可以匹配字符串 ‘hello’。 要注意的是,正则表达式并不是一个程序,而是用于处理字符串的一种模式,如果你想用它来处理字符串,...

2017-05-27 16:44:19

阅读数:240

评论数:0

使用sklearn优雅地进行数据挖掘

目录 1 使用sklearn进行数据挖掘   1.1 数据挖掘的步骤   1.2 数据初貌   1.3 关键技术 2 并行处理   2.1 整体并行处理   2.2 部分并行处理 3 流水线处理 4 自动化调参 5 持久化 6 回顾 7 总结 8 参考资料 1 使用sklearn进行数据挖掘 1...

2017-04-06 18:39:15

阅读数:687

评论数:0

使用sklearn做单机特征工程

目录 1 特征工程是什么? 2 数据预处理   2.1 无量纲化     2.1.1 标准化     2.1.2 区间缩放法     2.1.3 标准化与归一化的区别   2.2 对定量特征二值化   2.3 对定性特征哑编码   2.4 缺失值计算   2.5 数据变换   2.6 回顾 3 ...

2017-04-06 18:32:18

阅读数:225

评论数:0

使用Python进行描述性统计

目录 1 描述性统计是什么? 2 使用NumPy和SciPy进行数值分析   2.1 基本概念   2.2 中心位置(均值、中位数、众数)   2.3 发散程度(极差,方差、标准差、变异系数)   2.4 偏差程度(z-分数)   2.5 相关程度(协方差,相关系数)   2.6 ...

2017-04-06 18:13:43

阅读数:2946

评论数:0

朴素贝叶斯分类算法理解及文本分类器实现

贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义。然后,介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单的一种:朴素贝叶斯分类。 分类问题综述 对...

2017-04-01 17:04:45

阅读数:1122

评论数:0

hadoop streaming两个数据文件实现join合并操作

hadoop做数据处理,大都是对集合进行操作,因此将数据文件与另一个数据文件进行join的操作需求非常常见。 下面将使用一个例子让新入门的朋友掌握编写方法: [hdfs@server1]$ more clean_item_new 100002303,3368 100002865,11991 10...

2017-04-01 16:26:32

阅读数:1619

评论数:0

Centos6没有GUI的情况下使用matplotlib绘图

最近在服务器上安装matplotlib,记录下: 首先matplotlib通过pip安装好了,网上很多不重复,我的环境是CentOS6.4 python2.6 系统自带的版本 import导入报错 >>>import matplotlib.pyplot as plt 报错: ...

2017-03-13 17:51:17

阅读数:1241

评论数:0

使用python抓取分析链家网二手房数据

python抓取链家网北京二手房数据,使用requests+BeautifulSoup的方法对页面进行抓取和数据提取。通过使用requests库对链家网二手房列表页进行抓取,通过BeautifulSoup对页面进行解析,并从中获取房源价格,面积,户型和关注度的数据。 整体共两个py文件,第一个...

2016-12-23 11:00:33

阅读数:4445

评论数:0

使用python对中文文档进行词频统计

对中文文档进行词汇统计 1、使用jieba先对中文文档进行分词处理 需要处理的clean_data.csv文件内容(三列) http://you.ctrip.com/travels/1322/1360550.html   地中海邮轮+罗马深度自由行      宅猫行天下      http:/...

2016-11-11 16:02:16

阅读数:28161

评论数:8

python入门(1)-命令方式理解

# _*_ coding: utf-8 _*_ """类型和运算----类型和运算----类型和运算----类型和运算----类型和运算----类型和运算----类型和运算----类型和运算----类型和运算----类型和运算----类型和运算""...

2016-10-17 19:27:24

阅读数:1054

评论数:0

Scrapy下xpath基本的使用方法

Scrapy是基于python的开源爬虫框架,使用起来也比较方便。具体的官网档:http://doc.scrapy.org/en/latest/ 之前以为了解python就可以直接爬网站了,原来还要了解HTML,XML的基本协议,在了解基础以后,在了解下xpath的基础上,再使用正则表达式(pyt...

2016-10-14 16:29:09

阅读数:477

评论数:0

Firefox中firebug和xpath checker工具的使用

Firefox是一个非常专业的浏览器,它许多插件。由于爬虫项目需要,要看网页的代码,并且找到有用信息,我推荐firebug这个看代码的工具,并使用xpath提取需要的信息。 firefox浏览器安装好,打开菜单-》附加组件-》扩展-》搜索firebug和xpath checker,安装就可以了,最...

2016-10-14 16:25:58

阅读数:2697

评论数:0

使用hadoop streaming进行用户流量分析

本文是用python语言并使用hadoop中的streaming来对用户数据进行分析,统计用户的手机号码、上行流量、下行流量、总流量的信息。 本案例适合hadoop初级人员学习。 一、待分析的数据源 文本文件内容,里面有非常多的用户浏览信息,包括用户手机号码,上网时间,机器序列号,访问的IP,...

2016-09-26 18:00:16

阅读数:383

评论数:0

Sublime Text 2设置python开发环境

Sublime Text 2作为一款轻量级的编辑器,特点鲜明,方便使用,近段还在学习Python的相关东西,所以开始用ST2来写Python,把配置方法总结一下。 一、运行python代码: 1. 在工具栏点击Preferences,打开Browse Packages。在打开的文件夹中找到Pyt...

2016-08-08 16:58:14

阅读数:544

评论数:0

Python的字典和JSON

Python的字典和JSON在表现形式上非常相似 #这是Python中的一个字典 dic = { 'str': 'this is a string', 'list': [1, 2, 'a', 'b'], 'sub_dic': { 'sub_str': 'this is sub str...

2016-08-03 14:16:52

阅读数:378

评论数:0

python词云 wordcloud入门

构建词云的方法很多, 但是个人觉得python的wordcloud包功能最为强大,还可以自定义图片. 官网: https://amueller.github.io/word_cloud/ github: https://github.com/amueller/word_cloud 安装wordc...

2016-06-29 16:26:45

阅读数:5463

评论数:0

使用python jieba库进行中文分词

jieba “结巴”中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chi...

2016-06-20 17:19:33

阅读数:6068

评论数:0

使用python脚本备份crontab定时任务

近期打算备份下服务器crontab任务,以防个人失误,清空定时任务,其实我觉得shell脚本更简单,但是想练习下python,决定使用python脚本进行,前提执行主机做好对其他节点服务器ssh免秘钥登录 vi crontab_back.py #!/usr/bin/env python # -*...

2016-06-14 18:08:14

阅读数:568

评论数:0

python实现wordcount程序

需要统计的文件 $ cat input.txt foo foo quux iio oo pp pp oo see you you again welcome test test ddd gggg ggg acc aaa dddd bbb ddd ccc ddd ccc aaa wo ni ta ...

2016-05-25 18:44:10

阅读数:1934

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭