花名:白起

科技改变世界,技术改变人生。

python将txt文件转为excel格式

因业务需要,将txt文件转换为excel文件,代码考虑了健壮性,分享一下,代码如下: 使用方法:sh txt2excel.sh file.txt [cl@master txt2excel]$ cat file.txt aaaa bbbb cccc dddd eeee [cl@maste...

2018-08-31 10:23:11

阅读数:168

评论数:3

Linux非root用户安装Python及相关库

前提准备工作,通过root安装 yum install -y tkinter tk-devel gcc 下面是普通用户操作(用户lilei) 1、安装python python版本库https://www.python.org/ftp/python/,此处我选择2.7.9版本的...

2017-07-12 15:11:39

阅读数:3510

评论数:1

Python正则表达式re模块简明笔记

简介 正则表达式(regular expression)是可以匹配文本片段的模式。最简单的正则表达式就是普通字符串,可以匹配其自身。比如,正则表达式 ‘hello’ 可以匹配字符串 ‘hello’。 要注意的是,正则表达式并不是一个程序,而是用于处理字符串的一种模式,如果你想用它来处理字符串,...

2017-05-27 16:44:19

阅读数:260

评论数:0

使用sklearn优雅地进行数据挖掘

目录 1 使用sklearn进行数据挖掘   1.1 数据挖掘的步骤   1.2 数据初貌   1.3 关键技术 2 并行处理   2.1 整体并行处理   2.2 部分并行处理 3 流水线处理 4 自动化调参 5 持久化 6 回顾 7 总结 8 参考资料 1 使用sklearn进行数据挖掘 1...

2017-04-06 18:39:15

阅读数:869

评论数:0

使用sklearn做单机特征工程

目录 1 特征工程是什么? 2 数据预处理   2.1 无量纲化     2.1.1 标准化     2.1.2 区间缩放法     2.1.3 标准化与归一化的区别   2.2 对定量特征二值化   2.3 对定性特征哑编码   2.4 缺失值计算   2.5 数据变换   2.6 回顾 3 ...

2017-04-06 18:32:18

阅读数:248

评论数:0

使用Python进行描述性统计

目录 1 描述性统计是什么? 2 使用NumPy和SciPy进行数值分析   2.1 基本概念   2.2 中心位置(均值、中位数、众数)   2.3 发散程度(极差,方差、标准差、变异系数)   2.4 偏差程度(z-分数)   2.5 相关程度(协方差,相关系数)   2.6 ...

2017-04-06 18:13:43

阅读数:3880

评论数:0

朴素贝叶斯分类算法理解及文本分类器实现

贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义。然后,介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单的一种:朴素贝叶斯分类。 分类问题综述 对...

2017-04-01 17:04:45

阅读数:1900

评论数:0

hadoop streaming两个数据文件实现join合并操作

hadoop做数据处理,大都是对集合进行操作,因此将数据文件与另一个数据文件进行join的操作需求非常常见。 下面将使用一个例子让新入门的朋友掌握编写方法: [hdfs@server1]$ more clean_item_new 100002303,3368 100002865,11991 10...

2017-04-01 16:26:32

阅读数:2005

评论数:0

Centos6没有GUI的情况下使用matplotlib绘图

最近在服务器上安装matplotlib,记录下: 首先matplotlib通过pip安装好了,网上很多不重复,我的环境是CentOS6.4 python2.6 系统自带的版本 import导入报错 >>>import matplotlib.pyplot as plt 报错: ...

2017-03-13 17:51:17

阅读数:1510

评论数:0

使用python抓取分析链家网二手房数据

python抓取链家网北京二手房数据,使用requests+BeautifulSoup的方法对页面进行抓取和数据提取。通过使用requests库对链家网二手房列表页进行抓取,通过BeautifulSoup对页面进行解析,并从中获取房源价格,面积,户型和关注度的数据。 整体共两个py文件,第一个...

2016-12-23 11:00:33

阅读数:5134

评论数:0

使用python对中文文档进行词频统计

对中文文档进行词汇统计 1、使用jieba先对中文文档进行分词处理 需要处理的clean_data.csv文件内容(三列) http://you.ctrip.com/travels/1322/1360550.html   地中海邮轮+罗马深度自由行      宅猫行天下      http:/...

2016-11-11 16:02:16

阅读数:33467

评论数:9

python入门(1)-命令方式理解

# _*_ coding: utf-8 _*_ """类型和运算----类型和运算----类型和运算----类型和运算----类型和运算----类型和运算----类型和运算----类型和运算----类型和运算----类型和运算----类型和运算""...

2016-10-17 19:27:24

阅读数:1127

评论数:0

Scrapy下xpath基本的使用方法

Scrapy是基于python的开源爬虫框架,使用起来也比较方便。具体的官网档:http://doc.scrapy.org/en/latest/ 之前以为了解python就可以直接爬网站了,原来还要了解HTML,XML的基本协议,在了解基础以后,在了解下xpath的基础上,再使用正则表达式(pyt...

2016-10-14 16:29:09

阅读数:529

评论数:0

Firefox中firebug和xpath checker工具的使用

Firefox是一个非常专业的浏览器,它许多插件。由于爬虫项目需要,要看网页的代码,并且找到有用信息,我推荐firebug这个看代码的工具,并使用xpath提取需要的信息。 firefox浏览器安装好,打开菜单-》附加组件-》扩展-》搜索firebug和xpath checker,安装就可以了,最...

2016-10-14 16:25:58

阅读数:2932

评论数:0

使用hadoop streaming进行用户流量分析

本文是用python语言并使用hadoop中的streaming来对用户数据进行分析,统计用户的手机号码、上行流量、下行流量、总流量的信息。 本案例适合hadoop初级人员学习。 一、待分析的数据源 文本文件内容,里面有非常多的用户浏览信息,包括用户手机号码,上网时间,机器序列号,访问的IP,...

2016-09-26 18:00:16

阅读数:440

评论数:0

Sublime Text 2设置python开发环境

Sublime Text 2作为一款轻量级的编辑器,特点鲜明,方便使用,近段还在学习Python的相关东西,所以开始用ST2来写Python,把配置方法总结一下。 一、运行python代码: 1. 在工具栏点击Preferences,打开Browse Packages。在打开的文件夹中找到Pyt...

2016-08-08 16:58:14

阅读数:574

评论数:0

Python的字典和JSON

Python的字典和JSON在表现形式上非常相似 #这是Python中的一个字典 dic = { 'str': 'this is a string', 'list': [1, 2, 'a', 'b'], 'sub_dic': { 'sub_str': 'this is sub str...

2016-08-03 14:16:52

阅读数:585

评论数:0

python词云 wordcloud入门

构建词云的方法很多, 但是个人觉得python的wordcloud包功能最为强大,还可以自定义图片. 官网: https://amueller.github.io/word_cloud/ github: https://github.com/amueller/word_cloud 安装wordc...

2016-06-29 16:26:45

阅读数:5619

评论数:0

使用python jieba库进行中文分词

jieba “结巴”中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chi...

2016-06-20 17:19:33

阅读数:6772

评论数:0

使用python脚本备份crontab定时任务

近期打算备份下服务器crontab任务,以防个人失误,清空定时任务,其实我觉得shell脚本更简单,但是想练习下python,决定使用python脚本进行,前提执行主机做好对其他节点服务器ssh免秘钥登录 vi crontab_back.py #!/usr/bin/env python # -*...

2016-06-14 18:08:14

阅读数:638

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭