楓川-CSDN博客

原创 python基础

#b=[7,'cd',9]#c={"abc":7,"abcd":8,"q":"python"}#e=set('abcdefgafc')#f=set('abcdtrghj')'''b='9'if(b=='9'): print('abc')'''#if'''a=10b=1if(a>19): print(a) if(b<9): ...

2019-07-24 22:15:56 199

原创正则筛选txt内容

import refh1=open("C:\\Users\\gaoxingyuan\\Desktop\\111.txt","w",encoding='utf-8')fh=open("C:\\Users\\gaoxingyuan\\Desktop\\123.txt","r",encoding='utf-8')pat="id=(.*?)&t"a=[]for i in fh: ...

2019-07-24 22:12:34 448

原创正则表达式

import restr1='wangluochongcheng1601gaoxingyuan'#普通字符为原子pat1='gaoxingyuan'res1=re.search(pat1,str1)#print(res1)#非打印字符为原子'\n':换行符 '\t':制表符str2='''wangluochongcheng1601gaoxingyuan'''pat2='\n...

2019-07-24 22:11:30 178

原创爬取大河新闻网新闻

#新闻爬虫#需求:将大河网新闻所有新闻爬到本地#思路：#先爬首页，通过正则表达式获取所有新闻链接#然后依次爬各新闻，并存储到本地import reimport osimport urllib.requestimport urllib.errorimport randommy_heardrs=["Mozilla/5.0 (Windows NT 6.3; WOW64) Apple...

2019-07-24 22:09:45 293

原创糗事百科段子爬虫

#糗事百科段子爬虫#用户代理#多行匹配：需要用到模式修正符S 让.匹配包括换行符import reimport urllib.requesthead=("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/5...

2019-07-24 22:06:26 154

原创爬虫的异常处理

爬虫的异常处理URLError出现的原因1）连接不上服务器2）远程url不存在3）无网络4）触发HTTPErrorHTTPError310 ：重新定向到新的URL，永久性302 ：重新定向到临时的URL，非永久性304 ：请求的资源未更新400 ：非法请求401 ：请求未经授权403 ：禁止访问404 ：没有找到对应页面500 ：服务器内部出现的错误501 ：服务器不...

2019-07-24 22:03:56 206

原创浏览器伪装

#浏览器伪装import urllib.requestimport urllib.errorimport random#头文件格式header=("User=Agent",具体用户代理值)my_hearders=["Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0...

2019-07-24 22:00:48 546

原创 urllib超时设置

#超时设置import urllib.requestfor i in range(0,100): file=urllib.request.urlopen("http://www.baidu.com",timeout=1) try: print(file.read().decode('utf-8')) except Exception as err:...

2019-07-24 21:59:35 901

原创 xpath表达式基础

/ ：逐层提取text():提取标签下面的文本//标签名：提取所有名为**的标签//标签名[@属性=‘属性值’] ：提取属性为XX的标签@属性名：代表取某个属性的值实例提取标题：/html/head/title/text()提取所有的div标签：//div提取div中标签的内容：//div[@class=‘tools’]...

2019-07-24 21:58:31 143

原创 ip代理构建

#IP代理的构建'''import urllib.requestip="54.39.24.37:3128"proxy=urllib.request.ProxyHandler({"http":ip})opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandler)urllib.request.install_open...

2019-07-24 21:56:23 212

原创 get请求

#自动模拟HPPT请求#get请求--实现百度信息自动搜索import urllib.requestimport re##keywd="python"#如果关键字是中文，则需要进行转码#keywd='马云'#keywd=urllib.request.quote(keywd)##url="http://baidu.com/s?wd="+keywd##data=urllib.r...

2019-07-24 21:55:08 216

原创 post模拟登录

#postimport urllib.requestimport urllib.parse#urllib.parse主要是设置表单的内容posturl="https://www.iqianyue.com/mypost"postdada=urllib.parse.urlencode({ "name":"123123","pass":"123456" }).encode("...

2019-07-24 21:53:21 1047

原创爬取CSDN博客首页的文章

#爬取https://blog.csdn.net/首页所有文章到本地import reimport osimport urllib.requestimport urllib.error#设置用户浏览器代理header=("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, lik...

2019-07-24 21:48:57 1081

原创 urllib的简单用法

urllib的简单用法import urllib.request#urlopen(网页地址)file=urllib.request.urlopen("http://zzuli.edu.cn")#urlretrieve（网址，本地文件存储地址）直接下载网页到本地#导出文件路径要用双斜杠\\ '''urllib.request.urlretrieve("http://www...

2019-07-24 21:45:34 199