![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
海边看花开
越努力越幸福
展开
-
爬虫自学之路(一)
学习爬虫需要掌握爬虫的基础,请求库,解析库的使用,这里小编是根据https://www.cnblogs.com/zhaof/p/6910871.html进行学习的,他这里对一些基础讲解的挺好的,希望可以帮助到初学的人,大家共勉。...转载 2018-10-28 10:41:03 · 493 阅读 · 0 评论 -
pycharm常用的IDE工具
原创 2018-11-26 22:59:11 · 1073 阅读 · 0 评论 -
Python3 win下pip更新为国内源
Python在安装库的时候发现下载速度很慢,可以更换为国内源国内比较好的源:清华源:https://pypi.tuna.tsinghua.edu.cn/simple豆瓣源:http://pypi.douban.com/simple/阿里源:http://mirrors.aliyun.com/pypi/simple/解决办法一:在pip install 库名 -i 想要使用源如pi...原创 2018-12-16 21:41:20 · 4684 阅读 · 2 评论 -
把字典参数拼接进字符串中
import urllib.parseurl = "http://www.baidu.com/s?"params ={ "wd":"python", "key":"java", "value":"php"}params_str = urllib.parse.urlencode(params)new_url = url + params原创 2019-02-19 22:51:52 · 589 阅读 · 0 评论 -
urllib3
在使用urllib3抓取某个药智时,出现下面错误urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1045)>解决办法:两种处理办法取消证书...原创 2019-03-08 21:56:26 · 492 阅读 · 0 评论 -
使用xpath爬取腾讯招聘python岗位信息
使用xpath爬取腾讯招聘招聘数据# -*- coding:utf-8 -*-import requestsfrom lxml import etreeclass Tencent(object): def __init__(self): self.base_url = "https://hr.tencent.com/position.php?keywords=py...原创 2019-04-06 21:43:17 · 1230 阅读 · 0 评论 -
python内置函数学习
1 lambda使用实现 x+y求和,传统办法定义函数求和def func(x,y): return x+yprint(func(2,3))使用lambda函数后a = lambda x,y: x+yprint(a(2,3))2 filter函数的使用filter函数只识别0,1,True,False,会把 1和True返回,0和False的过滤掉b = fil...原创 2019-04-07 13:05:07 · 91 阅读 · 0 评论 -
pyhton使用正则抓取古诗文
正则表达式爬取古诗文# -*- coding:utf-8 -*-import requestsimport reclass Gushiwen_Spider(object): def __init__(self): self.url = "https://www.gushiwen.org/default_{}.aspx" self.headers...原创 2019-04-08 00:34:22 · 251 阅读 · 0 评论 -
python3抓取糗事百科
使用requests和re模块抓取糗事百科# -*- coding:utf-8 -*-import requestsimport reclass Qiushi_Spider(object): def __init__(self): self.url = "https://www.qiushibaike.com/text/page/{}/" self...原创 2019-04-08 21:04:30 · 103 阅读 · 0 评论 -
使用python3的you-get下载视频
you-get使用1 安装 pip insatll you-get2 you-get 基本使用you-get 基本支持所用网站的视频下载you-get urlyou-get -i url 可以查看要下载的画质的下载方式如这里下载高清指定下载位置you-get -o path url如果想获取视频的地址:you-get --json url...原创 2019-04-15 22:08:34 · 1257 阅读 · 0 评论 -
python3 csv模块的基本使用
1 读取csv文件 :数据如下两种读取方式:1 : 以返回列表的形式读取# -*- coding:utf-8 -*-import csvdef read_csv_demo1(): with open("china_smoking.csv", "r") as fp: reader = csv.reader(fp) # reader是一个迭代器 ...原创 2019-04-17 00:02:01 · 7493 阅读 · 2 评论 -
使用lxml来爬取某地区豆瓣正在上映的电影
具体代码如下# print(etree.tostring(html,encoding="utf-8").decode("utf-8"))lis = ul.xpath("./li[@class='list-item']")movies = []for li in lis: # print(etree.tostring(li,encoding="utf-8").decode("utf...原创 2018-11-21 22:43:15 · 448 阅读 · 0 评论 -
request请求方法使用content和text的区别
import requestresp = request.get("http://www.baidu.com")resp.text // 返回的是一个经过解码后的字符串,是unicode类型resp.content // 返回的是一个原生字符串,是bytes类型...原创 2018-11-21 21:31:20 · 7001 阅读 · 0 评论 -
爬虫自学之路(二) requests小技巧
中文文档:http://docs.python-requests.org/zh_CN/latest/api.html1 安装 pip install requests 或者 python -m install requests2 RequestsCookieJar转换为cookie字典requests.utils.dict_from_cookiejar(resp.cook...原创 2018-10-28 10:54:53 · 966 阅读 · 0 评论 -
爬虫自学之路(三) selenium
镜像下载地址:https://npm.taobao.org/中文文档:https://selenium-python-docs-zh.readthedocs.io/zh_CN/latest/waits.html1 安装:pip install selenium2 使用:windows下的使用先查看本机谷歌版本,然后去网站下载对应版本的chromedriver,然后把它添加环境变量里,(一...原创 2018-10-28 11:28:51 · 223 阅读 · 0 评论 -
使用urllib模拟登录人人网
登录人人网获取cookie,粘贴出来就可以废话不多说具体代码如下from urllib import requesturl ="http://www.renren.com/967952300/profile"headers ={"User-Agent":"Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTM...原创 2018-11-12 23:19:49 · 328 阅读 · 0 评论 -
fake-useragent实现随机ua
使用: pip install fake-useragent1 在scrapy框架中使用:middleware中间件中配置from fake_useragent import UserAgentclass RandomUserAgentMiddleware(object):# 随机更换uadef __init__(self,crawler):super(RandomU...原创 2018-11-05 22:20:15 · 1761 阅读 · 0 评论 -
定时爬虫制作
1 环境配置安装: apt-get install cron(服务器环境下默认安装的有)使用: crontab -e 进入编辑页面(第一次会让选择编辑器)crontab - l 查看当前的定时任务编辑:分 小时 日 月 星期 命令0-59 0-23 1-31 1-31 0-6 co...原创 2018-11-05 22:27:13 · 138 阅读 · 0 评论 -
requests学习
文档: http://docs.python-requests.org/zh_CN/latest/api.html1 安装: pip install requests 或者 python -m install requests2 requests 的7个主要方法:get 方法用法:response = requests.get(url,params=None,**kw...原创 2018-11-05 23:31:21 · 68 阅读 · 0 评论 -
Python库导出
查看当前环境安装包pip list或者 pip freeze2 安装包导入导出导出 pip freeze &amp;gt; requirements.txt导出需要在requirements.txt所在的文件目录下执行导入 pip isntall -r requirements.txt欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的...原创 2018-11-08 22:01:20 · 905 阅读 · 0 评论 -
使用urllib保存cookie至本地
废话不多说,直接上代码,保存的cookie的位置和名字可以在MozillaCookieJar()这里传入参数,也可以在cookiejar.save()传入from urllib import requestfrom http.cookiejar import MozillaCookieJarcookiejar = MozillaCookieJar("cookie.txt") han...原创 2018-11-15 23:44:05 · 366 阅读 · 0 评论 -
使用selenium抓取boss直聘
# -*- coding:utf-8 -*-from selenium import webdriverfrom lxml import etreeimport timeclass BossSpider(object): def __init__(self): self.start_url = 'https://www.zhipin.com/job_detail...原创 2019-04-22 21:09:37 · 640 阅读 · 0 评论