![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
老徐WEB
为人诚信开朗,勤奋务实,具有很强的领导组织能力和团队精神 ,专业理论知识丰富,基础扎实,善于思考,自学能力强 ,
创新和实践能力强, 热爱集体,能以大局为重,具有奉献精神。
QQ/VX:398911281
展开
-
python 3 urllib Proxy Authentication Required
proxy = urllib.request.ProxyHandler({'http': 'http://username:password@host:post'})auth = urllib.request.HTTPBasicAuthHandler()opener = urllib.request.build_opener(proxy, auth, urllib.request.HTTPHa原创 2015-11-11 16:24:50 · 2425 阅读 · 0 评论 -
Python 3.6 安装 wordcloud 会提示需要Microsoft Visual C++ 14.0 is required的错误
用pip install wordcloud的时候,提示需要Microsoft Visual C++ 14.0 is required的错误,这时请到https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud 这里下载所需的wordcloud模块的whl文件。根据系统平台、位数 及py版本来确定下载哪个文件。...原创 2018-06-02 20:33:17 · 487 阅读 · 0 评论 -
Python 爬虫抓取拉勾网职位数据,并存入MySQL数据库
有了技术要经常拿出来用用,不用的话,就会手生。技术的能力就是在学用,学用,学用中慢慢提高的。利用闲暇时间写了一个抓取拉勾网数据的爬虫,闲话不多说直接进入正题。我的开发环境是Windows + Anaconda3(Python 3.6),家用电脑没安装Linux(Linux下也是可以的)。建表语句:CREATE TABLE `lg_position` ( `id` bigint(20) NOT ...原创 2018-06-04 23:35:40 · 2307 阅读 · 2 评论 -
Python 爬虫抓取拉勾网职位数据,并存入CSV文件
这次把采集的数据存入CSV文件,之前写过把数据存入MySQL数据库的文章,请点击 。一些准备工作,比如职位接口、伪装浏览器及传递参数等信息也请在之前的文章里查看,此处不在重述了。完整代码如下: # -*- coding: utf-8 -*- import pandas as pd#from bs4 import BeautifulSoupimport urllib.request as ...原创 2018-06-05 00:08:17 · 2672 阅读 · 0 评论 -
拉勾网招聘职位的数据分析 - 数据分析师职位
最近写了一篇关于如何抓取数据的文章,目前没有审核过,通过后再来更新。不过网上有很多关于这块技术的详细操作,只要搜索一下就能找到。现在要说的是拿到数据后,如何处理数据,如何描述数据,如何发现数据中的信息/问题。对数据分析师来说,描述和展示数据,这是基础的一步。如何发现问题,并提出相关建议,最终能把建议落地,这一系列操作,对数据分析师才是挑战。我只获取了北京地区的职位数据,数据如下:一、我想分析以下几...原创 2018-06-05 10:13:11 · 1799 阅读 · 1 评论 -
抓取拉勾上游戏公司地址信息,结合百度地图API,生成游戏公司地图。感谢拉勾和百度地图的大力支持。
展示结果如下。说一下制作流程。一、获得公司名称及ID信息,请看下面图。打开Firefox web开发者模式,选择网络标签,在右边框里点击消息头,找到请求网址、请求方法;在参数标签里找到传递的参数;在响应标签里看到返回的JSON数据。请求的时候要伪装一下浏览器,比如headers = { 'Connection': 'Keep-Alive', 'Accep...原创 2018-06-07 07:50:34 · 582 阅读 · 0 评论 -
正则表达式里\b和\B,Python实例
书上讲的很储蓄,开始没有弄太明白。如果不弄明白,用的时候会非常苦恼。基于此,除了多多理解书本内容,又做了大量实践,总算有点明白了,在此记录一下。一来自己方便查看,二来希望看到此文章的同仁,也能多一点对\b\B的理解。\b,\B是单词边界,不匹配任何实际字符,所以是看不到的;\B是\b的非(补)。\b:表示字母数字与非字母数字字符的边界,非字母数字与字母数字的边界。\B:表示字母数字与(非非)字母数...原创 2018-06-29 12:51:34 · 31907 阅读 · 15 评论 -
正则表达式里的小括号(),组的概念
组在正则表达式里是一个重要概念,用小括号()表示。小括号即是正则表达式的模式;同时它与被括起来的子模式匹配的串匹配,此时小括号就确定了一个被匹配的组。感觉不太好理解,先看下面例子吧。1.前期准备:import re # 加载模块s = 'zvzc zcpython python1234 abcPython' # 字符串2.模式里没有小括号:pattern = re.compile('[Pp]yt...原创 2018-06-30 21:14:17 · 13120 阅读 · 0 评论 -
python 多进程 + 队列 检查代理ip有效性
之前写过获取代理IP和检查代理IP有效性的 脚本 。其中检查代理IP的效率太低,不能达到工作的要求,所以这次用多进程重写了一下。不太了解多进程的,请先参考liaoxuefeng的文章。一、准备:# 加载模块import multiprocessing as mpimport timeimport requestsips_ok_file = r'd:/tmp/xici_ips.t...原创 2018-07-16 17:55:39 · 1246 阅读 · 0 评论 -
python xpath 解析网页 应用实例
首先请阅读文档 http://www.runoob.com/xpath/xpath-tutorial.html ,这里有背景和概念的介绍。下面展示一些实际中的应用。一、准备:from lxml import etree # 加载模块 html='''<html> <head> <title>哈哈测试一下&l...原创 2018-07-11 12:08:22 · 4850 阅读 · 3 评论 -
selenium.common.exceptions.WebDriverException: Message: 'chromedriver' executable needs to be in PAT
用webdrive打开chorme浏览器时,出现错误:selenium.common.exceptions.WebDriverException: Message: 'chromedriver' executable needs to be in PAT# -*- coding: utf-8 -*- from selenium import webdriver if __n...原创 2018-07-17 18:45:18 · 1960 阅读 · 0 评论 -
获取免费代理IP,并检验IP有效性
爬虫程序访问网站,速度很快,很容易突破网站设置的访问次数,此情况下就会被停止访问,或者IP被封。如果此时能有一些代理IP,切换不同的代理IP去访问网站,使网站以为是从不同的机器上访问的,那么代理IP背后的自己的IP就不受影响了。就算用了代理IP也不要频繁访问网站,因为要为网站考虑一下它的压力。1.从http://www.xicidaili.com/nn/1里获取免费代理IP。打开网页,查看源代...原创 2018-07-05 16:57:22 · 7907 阅读 · 0 评论 -
python selenium 实现liepin自动登录及简历刷新
选择工具很重要。用selenium实现liepin的登录及简历刷新。一、准备:# 加载模块from selenium import webdriver import time二、操作浏览器browser = webdriver.Chrome() # 打开浏览器browser.get('https://www.liepin.com/') # 打开网页time.sleep(...原创 2018-07-18 17:32:33 · 635 阅读 · 0 评论 -
简单图片下载器 - 豆瓣小说图书封面下载 连续多页
写了一个简单的图片下载器,可以连续多页,直到没有【下一页】。特别注意的是header里一定要添加上Cookie,要不然抓取的是假数据。获取Cookie,可以用浏览器开发者工具来辅助。而且添加了时间延迟,以免被屏蔽。完整代码如下:# -*- coding: utf-8 -*- '''一个简单的图片下载脚本下载豆瓣小说图书封面'''import requestsimpor...原创 2018-07-26 10:50:23 · 578 阅读 · 0 评论 -
Python - time模块总结
工作中总能用到time, datetime模块,多数时候用于时间日期不同格式间的转换。如果没有熟练掌握各函数用法,那么将不能快速解决问题。今天详细整理一下time模块的用法,有不当之处还请指正。先上总结:import timetime.time() # 返回当前时间戳time.mktime(tupletime) # 接受时间元组,返回时间戳time.localtime(secs)...原创 2018-08-01 14:46:35 · 255 阅读 · 0 评论 -
UnicodeDecodeError: 'gbk' codec can't 类似这样的错误
def read_json(self): path = r'D:\xxx.json' with open(path) as f: str = json.loads(f.readline()) print(str)今天用python3.6在读取一个json文件时,总是提示编码错误的问题。首先json文件保存的是UTF-8的格式,...原创 2018-05-20 18:01:14 · 7683 阅读 · 0 评论 -
python3 datetime 获取指定日期的时间戳
获得日期 Feb 28, 2018 03:55:12 PM 的时间戳:import datetimectime = datetime.datetime.strptime('Feb 28, 2018 03:55:12 PM', '%b %d, %Y %I:%M:%S %p').timestamp()print(ctime)那么上面的时间格式是怎么生成的呢,如下:import datetimen...原创 2018-03-07 17:48:13 · 12637 阅读 · 0 评论 -
pandas groupby 分组取每组的前几行记录
直接上例子。import pandas as pddf = pd.DataFrame({'class':['a','a','b','b','a','a','b','c','c'],'score':[3,5,6,7,8,9,10,11,14]})df: classscore0a31a原创 2018-01-25 09:33:30 · 29060 阅读 · 5 评论 -
python 多进程实例
import datetimeimport timeimport sysimport multiprocessingTEST = {}TEST['test1'] = 1TEST['test2'] = 12TEST['test3'] = 13TEST['test4'] = 14TEST['test5'] = 15TEST['test6'] = 16TEST['test7']原创 2015-10-28 06:26:09 · 477 阅读 · 0 评论 -
pandas groupby 最大最小值
df.groupby('key')['data1','data2'].agg(['min','max'])df.groupby('key').agg({'data1':'min','data2':'max'})1. 取data1,data2的最小最大值,2.data1取最小值,data2取最大值。原创 2015-11-04 11:54:54 · 14816 阅读 · 0 评论 -
把字符串转换成字典
把字符串转换成字典,用eval函数就可以做到了原创 2016-03-25 14:15:13 · 706 阅读 · 0 评论 -
setup pip, PyMySQL,Jupyter , jieba, wordcloud in python 3.3
setup pip, PyMySQL,Jupyter in python 3.3原创 2016-05-11 08:52:09 · 1134 阅读 · 0 评论 -
Searching in baidu using BeautifulSoup in Python3.3
Searching in baidu using BeautifulSoap in Python3.3原创 2016-05-20 17:11:42 · 443 阅读 · 0 评论 -
import CSV data into MySQL via PyMySQL in Python 3.3
import CSV data into MySQL via PyMySQL in Python 3.3原创 2016-05-11 16:58:58 · 1935 阅读 · 0 评论 -
Read and write excel file with format by pandas and xlwt libraries of python
Read and write excel file with format by pandas and xlwt libraries of python转载 2016-05-05 09:35:23 · 1680 阅读 · 0 评论 -
query mysql using pymysql in Python 3.3
query mysql using pymysql in Python 3.3原创 2016-05-16 13:52:30 · 542 阅读 · 0 评论 -
run SVN commands using python
run SVN commands using python原创 2016-05-06 10:39:12 · 1330 阅读 · 0 评论 -
python 3.3 base64
>>> s='我'>>> base64.b64encode(s)Traceback (most recent call last): File "<stdin>", line 1, in <module> File "C:\Python33\lib\base64.py", line 58, in b64encod原创 2016-01-26 10:21:50 · 1787 阅读 · 0 评论 -
查看pandas版本
>>> import pandas as pd>>> pd.show_versions()>>> pd.__version__在命令行下输入 pip list 可以输出一个模块列表,并包含各模块版本号。原创 2017-03-28 10:53:26 · 65218 阅读 · 0 评论 -
pandas pivot_table() 按日期分多列数据
date 20170307 20170308 iphone4 2 0 iphone5 2 1 iphone6 0 1 先生成DF数据。>>> df = pd.DataFrame.from_dict([['ip4','20170307',1],['ip4','20170307',1],['ip5','2...原创 2017-03-16 18:01:50 · 4504 阅读 · 0 评论 -
python 3.3 计算两个日期间隔秒数/天数
python 3.3 计算两个日期间隔秒数/天数原创 2016-08-10 12:06:41 · 19567 阅读 · 0 评论 -
python3 pandas 读取MySQL数据和插入
python3 pandas 读取MySQL数据和插入原创 2017-07-05 14:16:56 · 13533 阅读 · 0 评论 -
Python - datetime模块小结
模块小结如下:另外有time模块小结from datetime import date, time, datetime, timedeltadatetime.now() # 当前日期元组datetime.today() # 当前日期元组d1 = '2018-05-09 10:20:15'd2 = '2018-06-02 08:32:10'd1_tuple = datet...原创 2018-08-31 16:17:03 · 138 阅读 · 0 评论