python
文章平均质量分 71
python语言相关知识点,语言本身、爬虫等
Pop_Rain
这个作者很懒,什么都没留下…
展开
-
python中shell调用
title: python中shell调用date: 2018-07-18 22:28:30updated: 2020-03-09 15:37:05categories: pythontags:- pythonpython前后端调用另辟蹊径–shell脚本调用再经过了前面的flask前后端调用的一天bug洗礼后,有个问题仍旧难以解决,大概就是flask是python的web服务,...原创 2020-03-17 13:46:57 · 247 阅读 · 0 评论 -
爬虫过程中遇到的相关问题
title: 爬虫过程中遇到的相关问题date: 2018-07-17 22:58:29categories: 爬虫tags:- 正则表达式- bs4爬虫过程中遇到的相关问题:正则表达式、bs4解析网页相关等#一、爬虫爬虫=爬取网页+解析网页。爬取网页方法:法一:requests.get(url)法二:用selenium的webdriver模拟浏览器点击来爬取解析网页...原创 2020-03-17 13:30:37 · 636 阅读 · 0 评论 -
scraping_编写第一个网络爬虫_最终版本
以下是自己学习到的第一个网络爬虫,是自己写与实例版本的对比1.自己学习写的最终版本import urllib.requestimport urllib.error import re #正则表达式import urllib.parse #将url链接从相对路径(浏览器可懂但python不懂)转为绝对路径(python也懂了)import urllib.robotparser #爬取原创 2017-05-19 14:14:49 · 1583 阅读 · 0 评论 -
爬取网页后的抓取数据_3种抓取网页数据方法
1. 正则表达式(1) re.findall('.*?(.*?)', html)(2) import repattern = re.compile("hello")#match_list = re.findall(pattern, "hello world! hello") 这个是找全部匹配的,返回列表match = pattern.match("hello worl原创 2017-05-19 17:45:38 · 16508 阅读 · 1 评论 -
从url中提取域名的几种方法
自己用python3实现的方法:import refrom urllib import parse#from urlparse import urlparsetopHostPostfix = ( '.com','.la','.io','.co','.info','.net','.org','.me','.mobi', '.us','.biz','.xxx','.ca','原创 2017-06-12 11:12:34 · 10508 阅读 · 0 评论 -
python3使用requests包抓取并保存网页源码
转载自:http://blog.csdn.net/w93223010/article/details/18968081近期的工作学习中使用到了Python,分享一些初学者的心得与君共勉。本节的内容主要是如何使用python去获取网页的源代码并存储到本地文件中,希望通过本节可以让你略微了解到python的神奇。先上代码:import urllib.re转载 2017-05-16 15:59:36 · 12847 阅读 · 1 评论 -
python3抓取网页解码问题!
在网页抓取时,经常遇到网页编码问题,以下是自己总结的干货一、几篇文章字符串编码与Python 3编码:http://blog.csdn.net/wangtaoking1/article/details/51326754 python3 和 python2 的编码与解码差别很大吗?:https://www.v2ex.com/t/343040Python 3的bytes/str之别转载 2017-06-12 16:22:20 · 3306 阅读 · 0 评论 -
BeautifulSoup与正则_简单爬虫python3实现
本文的内容python3自我实现代码见最下方的代码============以下转载自:http://blog.csdn.net/w93223010/article/details/20358683===============本节的内容主要是如何使用一个Python 写的一个 HTML/XML的解析器——BeautifulSoup,用它将上一节生成的result文件(就是抓取保存的网页源码原创 2017-06-12 22:48:23 · 3427 阅读 · 0 评论 -
查看网页是否压缩gzip+编码方式
一、查看网页是否压缩gzipreq = urllib.request.Request(url)html = urllib.request.urlopen(req)print(html.info().get('Content-Encoding')) #print(html.info())能查看更多信息二、查看网页编码方式在学习Python爬取网页的时候,我们经常会遇到编转载 2017-06-12 14:20:51 · 1446 阅读 · 0 评论 -
python3去除str中的n、r
1.替换所有str1 = "sdaasdqw\n"ste1 = str1.replace("\n","")print(str1)2.只是去除两头的str1 = "sdaasdqw\n"str1 = str1.strip("\n\r")print(str1)原创 2017-06-12 13:57:09 · 2696 阅读 · 0 评论 -
爬取网站前4_避免爬虫陷阱
目前,我们的爬虫会跟踪所有之前没有访问过的链接。但是,一些网站会动态生成页面内容,这样就会出现无限多的网页。比如,网站有一个在线日历功能,提供了可以访问下个月和下一年的链接,那么下个月的页面中同样会包含访问再下个月的链接,这样页面就会无止境地链接下去,这种情况被称为爬虫陷阱。想要避免陷入爬虫陷阱,一个简单的方法是记录到达当前网页经过了多少个链接,也就是深度。当到达最大深度时, 爬虫就不再向队列原创 2017-05-19 13:44:20 · 2418 阅读 · 0 评论 -
爬取网站前3_下载限速
如果我们爬取网站的速度过快,就会面临被封禁或是造成服务器过载的风险。为了降低这些风险,我们可以在两次下载之间添加延时(其实在解析robots.txt中一般就会有明确指出 下载限速delay的阈值,我们可以根据这个值进行下载限速的设置),从而对爬虫限速。下面是实现下载限速该功能的代码:#爬取网站的下载限速功能的类的实现,需要import datetime#Throttle类记录了每个域名上次访原创 2017-05-19 11:01:56 · 933 阅读 · 0 评论 -
爬取网站前2_支持代理
有时我们需要使用代理访问某个网站。比如,Netflix 屏蔽了美国以外的大多数国家。使用urllib.request支持代理并没有想象中那么容易(可以尝试使用更友好的Python HTTP模块requests来实现该功能, 其文档地址为http : //docs.python-requests.org/)。下面是使用urllib.request支持代理的代码:#支持代理import urll原创 2017-05-19 10:47:53 · 462 阅读 · 0 评论 -
python爬虫入门三之Urllib库的基本使用
关于完整python爬虫教程体系,强烈建议直接看这个教程(以下转载内容也可忽略)本文转载自:静觅 »Python爬虫入门三之Urllib库的基本使用那么接下来,小伙伴们就一起和我真正迈向我们的爬虫之路吧。1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML转载 2017-04-19 19:43:14 · 1325 阅读 · 0 评论 -
python3_访问url、json、读写文件
访问url:import urllib.requestf = urllib.request.urlopen('http://www.python.org/')print(f.read(300))webbrowser调用浏览器打开url:import webbrowserwebbrowser.open("http://www.baidu.com", new=0) #new=0为默原创 2017-05-16 09:26:02 · 2366 阅读 · 0 评论 -
python3_检查URL是否能正常访问
1.首先2000个URL。可以放在一个txt文本内2.通过python 把内容内的URL一条一条放进数组内3.打开一个模拟的浏览器,进行访问。4.如果正常访问就输出正常,错误就输出错误import urllib.requestimport timeopener = urllib.request.build_opener()opener.addheaders转载 2017-05-16 15:48:14 · 7160 阅读 · 1 评论 -
钓鱼网站规则提取工作的python代码重写总结
0_originJson_writeURL_inTxt.py:import urllib.requestimport jsonorigin_json_data = urllib.request.urlopen(r"http://www.txwz.qq.com/lib/index.php?m=enterprise&a=get_exsample").read()ndata = json.l原创 2017-05-16 17:07:18 · 966 阅读 · 0 评论 -
python3 字符串的方法和注释
python3 字符串的方法和注释:http://bbs.fishc.com/forum.php?mod=viewthread&tid=38992&extra=page%3D1%26filter%3Dtypeid%26typeid%3D403转载 2017-05-09 13:47:19 · 482 阅读 · 0 评论 -
字符串格式化format符号含义+转义字符含义
http://bbs.fishc.com/forum.php?mod=viewthread&tid=39140&extra=page%3D1%26filter%3Dtypeid%26typeid%3D403转载 2017-05-09 14:23:33 · 1304 阅读 · 0 评论 -
用python写一个网络爬虫
引言与前期准备在访问网页时,有时遇到网页访问出错(可能请求错误、可能服务端错误)从而为导致无法正常下载网页,因此我们要能健壮地捕获访问过程的错误并作出相应处理。这里转载一篇python3中的urllib.error实现:Python3网络爬虫(三):urllib.error异常。自己根据这篇文章及实际python3中遇到的问题成功实现了正常捕获网页访问error异常。以下代码实现两个功能:遇到原创 2017-05-17 11:03:27 · 793 阅读 · 0 评论 -
爬取网站前1_解析网站robots.txt文件
使用爬虫爬取数据前,我们需要解析网站robots.txt文件,以避免下载禁止爬取的url。这项工作需要使用python3自带的urllib.robotparser模块#使用爬虫爬取数据前,我们需要解析网站robots.txt文件import urllib.robotparserrp = urllib.robotparser.RobotFileParser()rp.set_url("原创 2017-05-19 09:56:47 · 5088 阅读 · 0 评论 -
编码与python中文使用问题
不同编码方式英文ASCII、中文GB2312……很多语言有不同编码,转码经常出现乱码。这时候Unicode应运而生,其把所有语言都统一到一套编码里,这样就不会再有乱码问题了。新的问题又出现了:如果统一成Unicode编码,乱码问题从此消失了。但是,如果你写的文本基本上全部是英文的话,用Unicode编码比ASCII编码需要多一倍的存储空间,在存储和传输上就十分不划算。所以,本着节约的精原创 2017-04-18 22:54:13 · 388 阅读 · 0 评论