Python
文章平均质量分 92
TURING.DT
科技改变世界,技术改变人生。
展开
-
使用Java调取Python训练的模型
在工业界,我们经常会使用 Python 或 R 来训练离线模型, 使用 Java 来做在线 Web 开发应用——这就涉及到了使用 Java 跨语言来调用 Python 或 R 训练的模型。一、PMMLPMML 是 Predictive Model Markup Language 的缩写,翻译为中文就是“预测模型标记语言”。它是一种基于XML的标准语言,用于表达数据挖掘模型,可以用来在不同的应用程序中交换模型。也就是说它定义了一个标准,不同语言都可以根据这个标准来实现。关于 PMML 内部的实现原理原创 2021-05-06 14:40:47 · 4586 阅读 · 0 评论 -
Redis缓存数据库安装及python读写redis数据
一、安装Redis1.获取redis资源wget http://download.redis.io/releases/redis-4.0.8.tar.gz2.解压tar xzvf redis-4.0.8.tar.gz3.安装cd redis-4.0.8makecd srcmake install PREFIX=/usr/local/redis(如果有执行出...原创 2019-12-27 19:07:36 · 904 阅读 · 0 评论 -
使用Python进行描述性统计
目录1 描述性统计是什么?2 使用NumPy和SciPy进行数值分析 2.1 基本概念 2.2 中心位置(均值、中位数、众数) 2.3 发散程度(极差,方差、标准差、变异系数) 2.4 偏差程度(z-分数) 2.5 相关程度(协方差,相关系数) 2.6 回顾3 使用Matplotlib进行图分析 3.1 基本概念 3.2 频数分析转载 2017-04-06 18:13:43 · 9561 阅读 · 0 评论 -
Sublime Text 2设置python开发环境
Sublime Text 2作为一款轻量级的编辑器,特点鲜明,方便使用,近段还在学习Python的相关东西,所以开始用ST2来写Python,把配置方法总结一下。一、运行python代码:1. 在工具栏点击Preferences,打开Browse Packages。在打开的文件夹中找到Python,并打开这个文件夹。找到文件Python.sublime-build,并打开。2.原创 2016-08-08 16:58:14 · 902 阅读 · 0 评论 -
使用pip安装tensorflow 0.80,python 使用tensorflow 0.80遇到的问题及处理方法
业务需要使用谷歌的深度学习框架tensorflow,安装过程中遇到很多问题,真的很难处理,特此记录。CentOS6.4tensorflow 0.80Python-2.7.111、卸载原来的pip2、下载个pip 网站https://pip.pypa.io/en/latest/installing/3、yum install python-devel libf原创 2016-04-26 15:51:15 · 47005 阅读 · 18 评论 -
使用python抓取分析链家网二手房数据
python抓取链家网北京二手房数据,使用requests+BeautifulSoup的方法对页面进行抓取和数据提取。通过使用requests库对链家网二手房列表页进行抓取,通过BeautifulSoup对页面进行解析,并从中获取房源价格,面积,户型和关注度的数据。整体共两个py文件,第一个是获取数据,第二个是处理分析数据一、获取数据并保存为csv文件#!/usr/bin/p转载 2016-12-23 11:00:33 · 9508 阅读 · 7 评论 -
使用python对中文文档进行词频统计
对中文文档进行词汇统计1、使用jieba先对中文文档进行分词处理需要处理的clean_data.csv文件内容(三列)http://you.ctrip.com/travels/1322/1360550.html 地中海邮轮+罗马深度自由行 宅猫行天下 http://you.ctrip.com/travels/1400/1600356.html 柏林&原创 2016-11-11 16:02:16 · 56227 阅读 · 10 评论 -
python入门(1)-命令方式理解
# _*_ coding: utf-8 _*_"""类型和运算----类型和运算----类型和运算----类型和运算----类型和运算----类型和运算----类型和运算----类型和运算----类型和运算----类型和运算----类型和运算"""#-- 寻求帮助: dir(obj) # 简单的列出对象obj所包含的方法名称,返回一个字符串列表 hel转载 2016-10-17 19:27:24 · 2010 阅读 · 0 评论 -
Python-2.7安装Scrapy 1.0爬虫实例
Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。使用python2原创 2016-04-13 14:27:44 · 2854 阅读 · 0 评论 -
Firefox中firebug和xpath checker工具的使用
Firefox是一个非常专业的浏览器,它许多插件。由于爬虫项目需要,要看网页的代码,并且找到有用信息,我推荐firebug这个看代码的工具,并使用xpath提取需要的信息。firefox浏览器安装好,打开菜单-》附加组件-》扩展-》搜索firebug和xpath checker,安装就可以了,最后重启浏览器Firebug:安装好之后,可以在屏幕的下方看到一个小虫的标志,是暗色的,说原创 2016-10-14 16:25:58 · 3565 阅读 · 0 评论 -
Scrapy下xpath基本的使用方法
Scrapy是基于python的开源爬虫框架,使用起来也比较方便。具体的官网档:http://doc.scrapy.org/en/latest/之前以为了解python就可以直接爬网站了,原来还要了解HTML,XML的基本协议,在了解基础以后,在了解下xpath的基础上,再使用正则表达式(python下的re包提供支持)提取一定格式的信息(比如说url),就比较容易处理网页了。xpath是原创 2016-10-14 16:29:09 · 920 阅读 · 0 评论 -
Centos6没有GUI的情况下使用matplotlib绘图
最近在服务器上安装matplotlib,记录下:首先matplotlib通过pip安装好了,网上很多不重复,我的环境是CentOS6.4 python2.6 系统自带的版本import导入报错>>>import matplotlib.pyplot as plt报错:ImportError: Gtk* backend requires pygtk to be instal原创 2017-03-13 17:51:17 · 2684 阅读 · 0 评论 -
朴素贝叶斯分类算法理解及文本分类器实现
贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义。然后,介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单的一种:朴素贝叶斯分类。分类问题综述对于分类问题,其实谁都不会陌生,说我们每个人每天都在执行分类操作一点都不夸张,只是我们没有意识到罢了。例原创 2017-04-01 17:04:45 · 7276 阅读 · 0 评论 -
使用sklearn优雅地进行数据挖掘
目录1 使用sklearn进行数据挖掘 1.1 数据挖掘的步骤 1.2 数据初貌 1.3 关键技术2 并行处理 2.1 整体并行处理 2.2 部分并行处理3 流水线处理4 自动化调参5 持久化6 回顾7 总结8 参考资料1 使用sklearn进行数据挖掘1.1 数据挖掘的步骤 数据挖掘通常包括数据采集,数据分析,特转载 2017-04-06 18:39:15 · 1242 阅读 · 0 评论 -
python写入excel超过65536行报错问题解决方法
接此篇文章:python将txt文件转为excel格式上篇文章中将内容写到excel中使用import xlwt包,后来发现文件写入超过65536行的时候就会报错,无法转换成功,xls后缀文件,只支持这么多行,在网上搜索一下,解决方法可以写多个sheet页,但不是我想要的方式,后来后搜索了下,找到了openpyxl包,使用这个包写入数据,文件保存为xlsx格式的,就可以完美解决。1...原创 2019-01-22 10:42:34 · 12515 阅读 · 3 评论 -
Linux Anaconda配置Jupyter Notebook远程访问
前面我们安装过Anaconda了,参考1. 安装ipython, jupyterpip install ipython pip install jupyter2.生成配置文件dm@zerotech-All-Series:~$ jupyter notebook --generate-config3.生成密码dm@zerotech-All-Series:~$ ipytho...原创 2018-12-10 16:33:32 · 3152 阅读 · 0 评论 -
python将txt文件转为excel格式
因业务需要,将txt文件转换为excel文件,代码考虑了健壮性,分享一下,代码如下:使用方法:sh txt2excel.sh file.txt[cl@master txt2excel]$ cat file.txtaaaabbbbccccddddeeee[cl@master txt2excel]$ cat txt2excel.sh#!/bin/bashsourc...原创 2018-08-31 10:23:11 · 7207 阅读 · 3 评论 -
Linux非root用户安装Python及相关库
前提准备工作,通过root安装yum install -y tkinter tk-devel gcc下面是普通用户操作(用户lilei)1、安装pythonpython版本库https://www.python.org/ftp/python/,此处我选择2.7.9版本的,在安装python的时候,使用--prefix指定安装路径即可,命令如下:wget https:原创 2017-07-12 15:11:39 · 7737 阅读 · 1 评论 -
centos6.4下scikit-learn安装经历
1、安装必要的包yum install lapack lapack-devel blas blas-develyum install numpyyum install scipy如果没有安装gcc,要先安装gcc 和g++yum install gcc yum install gcc-c++ 如果不安装lapack lapack-devel blas bla原创 2016-04-13 14:28:53 · 833 阅读 · 0 评论 -
Python正则表达式re模块简明笔记
简介正则表达式(regular expression)是可以匹配文本片段的模式。最简单的正则表达式就是普通字符串,可以匹配其自身。比如,正则表达式 ‘hello’ 可以匹配字符串 ‘hello’。要注意的是,正则表达式并不是一个程序,而是用于处理字符串的一种模式,如果你想用它来处理字符串,就必须使用支持正则表达式的工具,比如 Linux 中的 awk, sed, grep,或者编程语言 P转载 2017-05-27 16:44:19 · 449 阅读 · 0 评论 -
hadoop streaming两个数据文件实现join合并操作
hadoop做数据处理,大都是对集合进行操作,因此将数据文件与另一个数据文件进行join的操作需求非常常见。下面将使用一个例子让新入门的朋友掌握编写方法:[hdfs@server1]$ more clean_item_new100002303,3368100002865,11991100003592,7995100004955,7033100006838,12630原创 2017-04-01 16:26:32 · 5382 阅读 · 0 评论 -
使用sklearn做单机特征工程
目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filter 3.1.1 方差选择法转载 2017-04-06 18:32:18 · 442 阅读 · 0 评论 -
使用hadoop streaming进行用户流量分析
本文是用python语言并使用hadoop中的streaming来对用户数据进行分析,统计用户的手机号码、上行流量、下行流量、总流量的信息。本案例适合hadoop初级人员学习。一、待分析的数据源文本文件内容,里面有非常多的用户浏览信息,包括用户手机号码,上网时间,机器序列号,访问的IP,访问的网站,上行流量,下行流量,总流量等信息。(倒数第三列是上传流量,倒数第二列是下载流量,原创 2016-09-26 18:00:16 · 1165 阅读 · 0 评论 -
Anaconda和Pycharm安装和配置教程
1、下载Anaconda2 (最好选Python2.7的,兼容性好点)在官网下载:https://www.continuum.io/downloads新路径https://www.anaconda.com/distribution/2、安装Pycharm(顺便破解,不需要破解工具)默认下一步,安装好就OK了。手动配置Pycharm所用解释器3、打开“文件”—“设置”,它会自动检测...原创 2016-04-13 14:28:51 · 51435 阅读 · 3 评论 -
Ubuntu下安装numpy matplotlib scikit-learn ipython-notebook
安装numpy相对简单,以下命令可以完成 apt-get install python-numpyapt-get install python-scipy 安装matplotlib相对复杂一些需要先安装其依赖的包libpng和freetype安装libpng: sudo apt-get install libpng-dev安装free原创 2016-04-13 14:31:14 · 706 阅读 · 0 评论 -
python数据分析6:双色球 使用线性回归算法预测下期中奖结果
本次将进行下期双色球号码的预测,想想有些小激动啊。代码中使用了线性回归算法,这个场景使用这个算法,预测效果一般,各位可以考虑使用其他算法尝试结果。#!/usr/bin/python# -*- coding:UTF-8 -*-#导入需要的包import pandas as pdimport numpy as npimport matplotlib.pyplot as plt原创 2016-05-25 13:37:49 · 45008 阅读 · 23 评论 -
python数据分析5:双色球 两个红球哪组合比例高
统计两个红球,哪个组合最多,显示前19组数据#!/usr/bin/python# -*- coding:UTF-8 -*-#导入pandas、numpy、matplotlib、operator包import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport operator#读取文件df原创 2016-05-24 16:34:29 · 2100 阅读 · 0 评论 -
python脚本监控进程,服务停止后自动启动
实例1: 点击(此处)折叠或打开 #!/usr/bin/env python import subprocess import datetime import re import sys原创 2016-04-13 14:31:41 · 12000 阅读 · 0 评论 -
Python XML No module named etree.ElementTree
在学习使用Python解析XML的过程中遇到ImportError: No module named etree.ElementTree检查Python的库路径/usr/lib/python2.7/xml/etree,发现xml.etree.Element包是正常的报错提示是import xml.etree.ElementTree as ET 这一句有问题,最后求助于百度,原创 2016-04-13 14:31:17 · 7657 阅读 · 7 评论 -
Python实现九九乘法表
Python程序—九九乘法表 点击(此处)折叠或打开 #!/usr/bin/env python # -*- coding:UTF-8 -*- for i in range(1,10):原创 2016-04-13 14:29:40 · 5358 阅读 · 2 评论 -
python中将正则过滤的内容输出写入到文件中
处理过滤Apache日志文件access_test.log文件内容27.19.74.143 - - [30/May/2015:17:38:21 +0800] "GET /static/image/smiley/default/sleepy.gif HTTP/1.1" 200 23758.35.201.164 - - [30/May/2015:17:38:21 +0800] "GET原创 2016-04-13 14:29:37 · 3668 阅读 · 0 评论 -
python切分apache日志文件
1、使用python将文件切分为两个文件#!/usr/bin/env python# -*- coding:UTF-8 -*-import os,sysN = 0.8lines = open('access_2013.log','r').readlines()#读取文件lines_for_b = int(len(lines)*N)#计算行数open('a.t原创 2016-04-13 14:29:34 · 1043 阅读 · 0 评论 -
Python初学者的17个技巧
交换变量x = 6y = 5x, y = y, xprint x>>> 5print y>>> 6if 语句在行内print "Hello" if True else "World">>> Hello连接下面的最后一种方式在绑定两个不同类型的对象时显得很酷。nfc = ["Packers", "49ers"]a原创 2016-04-13 14:27:26 · 386 阅读 · 0 评论 -
Python中字符串处理函数里有三个去空格的函数
Python中字符串处理函数里有三个去空格的函数:strip 同时去掉左右两边的空格lstrip 去掉左边的空格rstrip 去掉右边的空格具体示例如下:>>>a=" go go ">>>a.lstrip()'go go '>>>a.rstrip()' go go'>>>a.strip()'go go'还可以使用替换的方法>>>"原创 2016-04-13 14:27:21 · 1445 阅读 · 0 评论 -
Hadoop之使用python实现数据集合间join操作
hadoop之steaming介绍hadoop有个工具叫做steaming,能够支持python、shell、C++、PHP等其他任何支持标准输入stdin及标准输出stdout的语言,其运行原理可以通过和标准java的map-reduce程序对比来说明:使用原生java语言实现Map-reduce程序 hadoop准备好数据后,将数据传送给java的map程序原创 2016-04-13 14:31:12 · 956 阅读 · 0 评论 -
python数据分析2:双色球 蓝红球分析统计
将上一篇收集的数据处理下,python数据分析1:获取双色球历史信息newdata.txt数据样子...2005-08-21, 05,10,23,27,28,30,152005-08-18, 04,05,17,18,26,33,042005-08-16, 09,12,18,21,28,29,05...一、蓝球统计:analyze_data_l原创 2016-05-16 15:50:06 · 5701 阅读 · 4 评论 -
Python的字典和JSON
Python的字典和JSON在表现形式上非常相似#这是Python中的一个字典 dic = { 'str': 'this is a string', 'list': [1, 2, 'a', 'b'], 'sub_dic': { 'sub_str': 'this is sub str', 'sub_list': [1, 2, 3] }, 'end': 'end' }//这转载 2016-08-03 14:16:52 · 922 阅读 · 0 评论 -
python实现wordcount程序
需要统计的文件$ cat input.txt foo foo quux iio oo pp pp oosee you you again welcome testtest ddd gggg gggacc aaa ddddbbb ddd cccddd ccc aaawo ni tawho am i-----------------------------mapper.py代码原创 2016-05-25 18:44:10 · 4845 阅读 · 0 评论 -
使用python jieba库进行中文分词
jieba“结巴”中文分词:做最好的 Python 中文分词组件"Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module.功能参数:jieba.cut 方法接受三个输入参数: 需要分词的字原创 2016-06-20 17:19:33 · 9847 阅读 · 0 评论 -
网页正文及内容提取算法
基于行块分布函数的通用网页正文抽取http://wenku.baidu.com/link?url=TOBoIHWT_k68h5z8k_Pmqr-wJMPfCy2q64yzS8hxsgTg4lMNH84YVfOCWUfvfORTlccMWe5Bd1BNVf9dqIgh75t4VQ728fY2Rte3x3CQhaS网页正文及内容图片提取算法http://www.jianshu.co原创 2016-05-23 14:18:09 · 10636 阅读 · 0 评论