自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 python基础

#b=[7,'cd',9]#c={"abc":7,"abcd":8,"q":"python"}#e=set('abcdefgafc')#f=set('abcdtrghj')'''b='9'if(b=='9'): print('abc')'''#if'''a=10b=1if(a>19): print(a) if(b<9): ...

2019-07-24 22:15:56 120

原创 正则筛选txt内容

import refh1=open("C:\\Users\\gaoxingyuan\\Desktop\\111.txt","w",encoding='utf-8')fh=open("C:\\Users\\gaoxingyuan\\Desktop\\123.txt","r",encoding='utf-8')pat="id=(.*?)&t"a=[]for i in fh: ...

2019-07-24 22:12:34 379

原创 正则表达式

import restr1='wangluochongcheng1601gaoxingyuan'#普通字符为原子pat1='gaoxingyuan'res1=re.search(pat1,str1)#print(res1)#非打印字符为原子'\n':换行符 '\t':制表符str2='''wangluochongcheng1601gaoxingyuan'''pat2='\n...

2019-07-24 22:11:30 121

原创 爬取大河新闻网新闻

#新闻爬虫#需求:将大河网新闻所有新闻爬到本地#思路:#先爬首页,通过正则表达式获取所有新闻链接#然后依次爬各新闻,并存储到本地import reimport osimport urllib.requestimport urllib.errorimport randommy_heardrs=["Mozilla/5.0 (Windows NT 6.3; WOW64) Apple...

2019-07-24 22:09:45 227

原创 糗事百科段子爬虫

#糗事百科段子爬虫#用户代理#多行匹配:需要用到模式修正符S 让.匹配包括换行符import reimport urllib.requesthead=("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/5...

2019-07-24 22:06:26 104

原创 爬虫的异常处理

爬虫的异常处理URLError出现的原因1)连接不上服务器2)远程url不存在3)无网络4)触发HTTPErrorHTTPError310 :重新定向到新的URL,永久性302 :重新定向到临时的URL,非永久性304 :请求的资源未更新400 :非法请求401 :请求未经授权403 :禁止访问404 :没有找到对应页面500 :服务器内部出现的错误501 :服务器不...

2019-07-24 22:03:56 133

原创 浏览器伪装

#浏览器伪装import urllib.requestimport urllib.errorimport random#头文件格式header=("User=Agent",具体用户代理值)my_hearders=["Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0...

2019-07-24 22:00:48 433

原创 urllib超时设置

#超时设置import urllib.requestfor i in range(0,100): file=urllib.request.urlopen("http://www.baidu.com",timeout=1) try: print(file.read().decode('utf-8')) except Exception as err:...

2019-07-24 21:59:35 831

原创 xpath表达式基础

/ :逐层提取text():提取标签下面的文本//标签名 :提取所有名为**的标签//标签名[@属性=‘属性值’] :提取属性为XX的标签@属性名 :代表取某个属性的值实例提取标题:/html/head/title/text()提取所有的div标签://div提取div中标签的内容://div[@class=‘tools’]...

2019-07-24 21:58:31 96

原创 ip代理构建

#IP代理的构建'''import urllib.requestip="54.39.24.37:3128"proxy=urllib.request.ProxyHandler({"http":ip})opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandler)urllib.request.install_open...

2019-07-24 21:56:23 148

原创 get请求

#自动模拟HPPT请求#get请求--实现百度信息自动搜索import urllib.requestimport re##keywd="python"#如果关键字是中文,则需要进行转码#keywd='马云'#keywd=urllib.request.quote(keywd)##url="http://baidu.com/s?wd="+keywd##data=urllib.r...

2019-07-24 21:55:08 166

原创 post模拟登录

#postimport urllib.requestimport urllib.parse#urllib.parse主要是设置表单的内容posturl="https://www.iqianyue.com/mypost"postdada=urllib.parse.urlencode({ "name":"123123","pass":"123456" }).encode("...

2019-07-24 21:53:21 974

原创 爬取CSDN博客首页的文章

#爬取https://blog.csdn.net/首页所有文章到本地import reimport osimport urllib.requestimport urllib.error#设置用户浏览器代理header=("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, lik...

2019-07-24 21:48:57 993

原创 urllib的简单用法

urllib的简单用法import urllib.request#urlopen(网页地址)file=urllib.request.urlopen("http://zzuli.edu.cn")#urlretrieve(网址,本地文件存储地址)直接下载网页到本地#导出文件路径要用双斜杠\\ '''urllib.request.urlretrieve("http://www...

2019-07-24 21:45:34 138

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除