python3
SunWuKong_Hadoop
人和人之间的能力是在8小时之外拉开的。
Notoriously torture the data until it confessed
展开
-
跟我一起学【Python3】之——百度ai+Tesseract-OCR识别图片文字和数字
1.安装python包pip install pillowpip install pytesser3pip install pytesseractpip install wheelpip install baidu-aippip install keyboard2.安装Tesseract-OCR3.源码from aip import AipOcrimport key...转载 2019-08-15 14:41:37 · 646 阅读 · 0 评论 -
numpy基础属性方法随机整理(四)---数组组合和分割 vstack /hstack / row_stack / column_stack / dstack /v[sd]split
数组组合类型:1. 垂直组合 np.vstack((up,down)) up, down 表示数据在上还是在下,类似于堆栈 2. 水平组合 np.hstack((left, right)) left right 表示数据在左还是在右 3. 行组合(对象:一维数组) np.row_stack((up,down)) 4. 列组合(对象:一维数组) np.column_stack((l...转载 2018-11-23 11:38:16 · 282 阅读 · 0 评论 -
Python3(phone)模块获取手机号归属地、区号、运营商等
from phone import Phoneimport xlrdimport xlwtdef Get_Excel_data(): file = 'Tel.xlsx' #电话号码存储的excle表 re1 = xlrd.open_workbook(file) outwb = xlwt.Workbook() #创建工作簿 # print(type(...转载 2018-11-07 17:47:56 · 2019 阅读 · 0 评论 -
python3爬虫 链接+表格+图片(本地+csv+mongodb存储)
# -*- coding: utf-8 -*-import requestsfrom bs4 import BeautifulSoupimport reimport csvimport timefrom pymongo import MongoClientclient = MongoClient('localhost',27017)db = client.admin db.a...原创 2018-09-30 17:44:34 · 364 阅读 · 0 评论 -
python3爬虫 链接+表格+图片(本地+csv存储)
# -*- coding: utf-8 -*-import urllib.requestimport http.cookiejarfrom bs4 import BeautifulSoupimport requestsimport csvimport timeimport reimport urllibfrom urllib.parse import quoteimport ...原创 2018-09-27 17:29:29 · 3063 阅读 · 0 评论 -
python3 爬取网页表格例子
很简洁明了的爬虫例子,分享给大家#网址如下:http://www.maigoo.com/news/463071.htmlfrom bs4 import BeautifulSoup import requests import csv import bs4 #检查url地址 def chec...转载 2018-09-21 10:35:50 · 2506 阅读 · 0 评论 -
python 四种方法删除列表里所有空格项
直接放最好的方法,下面这种才最符合python的优雅和效率! list1 = [x for x in list1 if x != '']思考过程:首先,我们来随便写一个带空格的列表:list1 = ['122','2333','3444',' ','422',' ',' ','54',' ']1相信已经有人尝试过,诸如以下的方式去删掉空格,例如:# -*- codi...转载 2018-09-21 10:23:27 · 6075 阅读 · 1 评论 -
在python 中如何将 list 转化成 字典(dictionary)
问题1:如何将一个list转化成一个dictionary?问题描述:比如在python中我有一个如下的list,其中奇数位置对应字典的key,偶数位置为相应的value 解决方案:1.利用zip函数实现 2.利用循环来实现 3.利用 enumerate 函数生成index来实现 问题2 我们如何将两个list 转化成一个dictionary?...转载 2018-09-20 11:16:29 · 3504 阅读 · 0 评论 -
python爬虫之定位网页元素的三种方式
在做爬虫的过程中,网页元素的定位是比较重要的一环,本文总结了python爬虫中比较常用的三种定位网页元素的方式。1.普通的BeautifulSoup find系列操作2.BeautifulSoup css选择器3. xpath这三种方式灵活运用,再配合上正则表达式,没有什么网页能难倒你啦。我们以获取豆瓣电影top250第一页的电影标题为例来比较:import reques...转载 2018-09-14 15:54:54 · 2446 阅读 · 0 评论 -
如何解决from lxml import etree报红的问题
这个主要是针对在Windows上运行pycharm,lxml和etree下面都报红的问题,自己解决了二个小时研究出来的。原因:主要是lxml没有这个包的问题,需要安装下: 1.需要在https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 下选择你和你对应的pytthon对应的版本2.cmd,pip install +版本 3.重启pycha...转载 2018-09-14 13:49:24 · 2217 阅读 · 0 评论 -
python3爬虫 链接+表格+图片 思路
左侧部门列表每点击一次都有一个新的js网页出现,Request URL可以明确看出网址,且每个网址都有其规律:点击了三个部门,返回的网址如下,可以看出是有规律的,此处deptid正是对应于下图中的<span>内容:这种倒推的思路,首先要做的就是部门的id提取出来,然后匹配成Request URL去获取js页,需要的id就在下面:<li>&...原创 2018-09-14 13:47:29 · 1042 阅读 · 1 评论 -
跟我一起学python3之--基础语法
基础篇为依据廖雪峰老师网站学习思路边敲代码边整理的详细内容原创 2018-09-04 15:52:43 · 125 阅读 · 0 评论 -
Python爬虫实践:获取石家庄空气质量历史数据(13年至今)
from urllib.request import urlopenfrom bs4 import BeautifulSoupimport reimport numpyimport csvimport timedef getdatawithtablehead(url): """ 该函数用于获取带表头的数据 """ html = urlopen(url) b...转载 2018-11-23 14:44:54 · 2497 阅读 · 27 评论 -
Python3爬虫程序 进阶:伪装浏览器、超时功能、保存数据
import urllib.requestimport http.cookiejar # head: dict of headerdef makeMyOpener(head = { 'Connection': 'Keep-Alive', 'Accept': 'text/html, application/xhtml+xml, */*', 'Accept-Langu...转载 2018-09-18 17:23:03 · 243 阅读 · 0 评论 -
跟我一起学【Python3】之——常见爬虫框架
一般比较小型的爬虫需求,我是直接使用requests库 + bs4就解决了,再麻烦点就使用selenium解决js的异步 加载问题。相对比较大型的需求才使用框架,主要是便于管理以及扩展等。一、爬虫技术库-urllib.request和requests库的使用(简单)1. requests库import requestsheaders = { 'User-Agent': 'Mozil...转载 2019-06-19 00:36:44 · 483 阅读 · 0 评论 -
pycharm所有版本 http://www.jetbrains.com/pycharm/download/previous.html 打开激活窗口 选择 Activate new license
pycharm所有版本 http://www.jetbrains.com/pycharm/download/previous.html打开激活窗口选择 Activate new license with: License server (用license server 激活)在 License sever address 处填入 http://xidea.online or http://...转载 2019-06-05 20:47:11 · 10153 阅读 · 0 评论 -
Python3操作EXCEL,取汉字首字母,拼接全拼
开发需求:将EXCEL中某列特殊字符之前的汉字取首字母,特殊字符之后的汉字取全拼,然后用下划线“_”相连,写入下一列把*******.xls中的汉字人名转成用户名,写到后面的单元格中。例如:网络--李大海 : wl_lidahai 现场-扬帆 : xc_yangfan 蹭课_张马: ck_zhangma #_author:'ZYB'#d...转载 2019-01-29 10:51:40 · 950 阅读 · 0 评论 -
跟我一起学Python3.X之——TextRank算法为文本生成关键字和摘要
TextRank算法基于PageRank,用于为文本生成关键字和摘要。其论文是:Mihalcea R, Tarau P. TextRank: Bringing order into texts[C]. Association for Computational Linguistics, 2004.先从PageRank讲起。PageRankPageRank最开始用来计算网页的重要性。...转载 2019-01-21 16:37:07 · 764 阅读 · 0 评论 -
Python3:数据可视化pyecharts的使用
1|0什么是pyechartspyecharts 是一个用于生成 Echarts 图表的类库。 echarts 是百度开源的一个数据可视化 JS 库,主要用于数据可视化。pyecharts 是一个用于生成 Echarts 图表的类库。实际上就是 Echarts 与 Python 的对接。 使用 pyecharts 可以生成独立的网页,也可以在 flask , Django 中集成...转载 2018-12-28 10:47:47 · 3188 阅读 · 2 评论 -
python3 中pyecharts库3d散点图
from pyecharts import Scatter3D,Pageimport randompage = Page()# stdata = [[random.randint(0, 100), random.randint(0, 100), random.randint(0, 100)] for _ in range(80)]range_color = ['#313695', '#4...转载 2018-12-27 17:57:41 · 8355 阅读 · 10 评论 -
python3爬取国家统计局,区域城乡代码
# -*- coding: utf-8 -*-# author:zjp"""通过国家统计局官网获取中国2017年所有城市数据2017年统计用区划代码和城乡划分代码(截止2017年10月31日)http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2017/"""import reimport requestsimport time...转载 2018-12-26 14:49:48 · 1715 阅读 · 0 评论 -
python3使用Selenium+Chrome+BeautifulSoup爬取国家统计局数据
爬取目标:地区数据--分省月度数据--指标(固定资产、房地产)--维度(2013-2017)最终代码GIT:https://github.com/sunruzi/python3此处省略数据网址图片(与csdn界面主题风格相差甚远,有些咋眼)数据网址:https://link.jianshu.com/?t=http%3A%2F%2Fdata.stats.gov.cn%2Feasyquer...转载 2018-12-26 13:43:47 · 2597 阅读 · 2 评论 -
python3中reload(sys)该怎么写
在Python2.x中由于str和byte之间没有明显区别,经常要依赖于defaultencoding来做转换。#python2写法:import sysreload(sys)sys.setdefaultencoding(‘utf-8’)python3中这个需要已经不存在了,这么做也不会什么实际意义。在python3有了明确的str和byte类型区别,从一种类型转换成另...转载 2018-11-27 11:37:32 · 5121 阅读 · 0 评论 -
在Oracle、MySQL中执行sql脚本生成hive建表语句
业务需求:在没有sqoop的基础上,将oracle归集库的数据迁移至hive作为ods数据源,mysql数据库中的指标表迁移至hive作为dw层。在MySQL中生成hive建表语句:#!/usr/bin/python# -*- coding: utf-8 -*-table_name = ['zzlq','z_zzjgdw_base_info','z_zzjg_base_inf...原创 2018-11-27 10:50:12 · 826 阅读 · 0 评论 -
百度poi爬取_mongo和txt各存一份_python3.6
直接上代码:# -*- coding: utf-8 -*-# Python 3# 提取城市的POI点信息并将其保存至MongoDB数据库import urllib.requestimport jsonfrom pymongo import MongoClientfrom urllib.parse import quoteimport stringleft_bottom = ...原创 2018-07-20 09:56:25 · 614 阅读 · 2 评论 -
python3 urllib.request.urlopen() 地址打开错误
错误内容:UnicodeEncodeError: 'ascii' codec can't encode characters in position 28-29: ordinal not in range(128)1.以为是代码错误,检查tab符,并没有问题,2.将代码粘贴到空白项目中去,发现还是不对。3.百度:http://blog.csdn.net/olanlanxiari/art...转载 2018-07-19 14:57:48 · 1529 阅读 · 0 评论 -
python3 线性回归
import pandas as pdimport numpy as npimport statsmodels.formula.api as smf# from sklearn.cross_validation import train_test_splitfrom sklearn.model_selection import train_test_splitfrom sklearn.m...转载 2018-05-09 15:52:13 · 599 阅读 · 0 评论 -
python3 线性回归验证
#-*- coding: utf-8 -*-import pandas as pdimport numpy as npfrom patsy.highlevel import dmatrices#2.7里面是from patsy import dmatricesfrom statsmodels.stats.outliers_influence import variance_inflati...转载 2018-05-09 15:53:04 · 2229 阅读 · 0 评论 -
python3 词云
from wordcloud import WordCloud,ImageColorGeneratorfrom PIL import Imageimport jiebaimport numpy as npimport matplotlib.pyplot as plttext = open(r'D:\python\test\wordcloud\data\jay.txt',encoding=...原创 2018-05-09 15:50:54 · 679 阅读 · 0 评论 -
python3中sys.argv的用法简明解释
学习网址:https://www.cnblogs.com/aland-1415/p/6613449.htmlhttps://blog.csdn.net/M1275601161/article/details/79383290例如:脚本中包含代码块如下if __name__ == '__main__': #从外传参,例如:xxx.py prov type date hour ...原创 2018-04-25 09:47:38 · 940 阅读 · 0 评论 -
python3 deque(双向队列)
创建双向队列import collectionsd = collections.deque()append(往右边添加一个元素)import collectionsd = collections.deque()d.append(1)d.append(2)print(d)#输出:deque([1, 2])appendleft(往左边添加一个元素)import collectionsd...转载 2018-05-02 18:12:59 · 245 阅读 · 0 评论 -
Python3 正则表达式 re
Python3 正则表达式 re常用的功能函数包括:compile、search、match、split、findall(finditer)、sub(subn)1.compilere.compile(pattern[, flags])作用:把正则表达式语法转化成正则表达式对象flags定义包括:re.I:忽略大小写re.L:表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前...转载 2018-04-24 18:36:59 · 307 阅读 · 0 评论 -
python3 校验社会统一信用代码
# -*- coding: utf-8 -*-import pandas as pdimport numpy as npimport pymysqlSOCIAL_CREDIT_CHECK_CODE_DICT = { '0':0,'1':1,'2':2,'3':3,'4':4,'5':5,'6':6,'7':7,'8':8,'9':9, ...原创 2018-04-19 16:41:29 · 637 阅读 · 0 评论 -
Python的list循环遍历中,删除数据的正确方法
Python的list循环遍历中,删除数据的正确方法初学Python,遇到过这样的问题,在遍历list的时候,删除符合条件的数据,可是总是报异常,代码如下:num_list = [1, 2, 3, 4, 5]print(num_list)for i in range(len(num_list)): if num_list[i] == 2: num_list.pop(i...转载 2018-04-23 10:31:24 · 457 阅读 · 0 评论 -
python画图之散点图scatter函数详解
原文地址:http://blog.csdn.net/u013634684/article/details/496463111、scatter函数原型2、其中散点的形状参数marker如下:3、其中颜色参数c如下:4、基本的使用方法如下:[python] view plain copy#导入必要的模块 import numpy as np import matplotlib.pyplot as ...转载 2018-02-23 11:12:04 · 2236 阅读 · 0 评论 -
python校验社会统一信用代码
# -*- coding: utf-8 -*-import pandas as pdimport numpy as npimport pymysqlSOCIAL_CREDIT_CHECK_CODE_DICT = { '0':0,'1':1,'2':2,'3':3,'4':4,'5':5,'6':6,'7':7,'8':8,'9':9, ...原创 2018-03-09 11:22:42 · 1598 阅读 · 0 评论 -
python3 线性回归检验2
#====图示法完成方差齐性的判断=====#标准化残差与预测值之间的散点图plt.scatter(fit2.predict(),(fit2.resid-fit2.resid.mean())/fit2.resid.std())plt.xlabel('预测值')plt.ylabel('标准化残差')#添加水平参考线plt.axhline(y = 0,color = 'r',linewid...转载 2018-05-09 15:54:00 · 2410 阅读 · 0 评论 -
python3 数据分析基础
笔记:原创 2018-05-09 15:55:24 · 263 阅读 · 0 评论 -
windows下MongoDB的安装及配置
一、先登录Mongodb官网https://www.mongodb.com/download-center#community 下载 安装包。32、64位的都行。二、安装MongoDB下载后的安装包:安装比较简单,类似于普通QQ软件,中间主要是选择“Custom”自定义 安装路径修改下:D:\software\MongoDB然后不断“下一步”,安装至结束。安装比较容易。难点在启动Mongodb...转载 2018-07-13 13:25:47 · 279 阅读 · 0 评论 -
python commands模块在python3.x被subprocess取代
subprocess可以执行shell命令的相关模块和函数有:os.systemos.spawnos.popen --废弃popen2.* --废弃commands.* --废弃,3.x中被移除import commandsresult = commands.getoutput('cmd') #只返回执行的结果, 忽略返回值.result = commands.ge...转载 2018-04-25 10:29:26 · 887 阅读 · 0 评论