Python Reptile
加油开心
你好呀
展开
-
获取访问状态码(比如200,404)
from urllib.request import Request, urlopenfrom fake_useragent import UserAgentfrom urllib.error import URLErrorurl = "https://passport.csdn.net/v1/register/pc/login/doLogin"headers = { "User-Agent": UserAgent().chrome}try: req = Request(ur原创 2020-06-20 22:27:25 · 719 阅读 · 0 评论 -
通过cookie登录以及使用账号密码登录
cookie就是让服务器知道是同一个人即辨别身份的比如你先登录进入到CSDN中然后复制链接重新打开会提示你没有登录另一种解释就是带着账户和密码连接服务器浏览器的开发者选项中可以看懂cookie下面的cookie内容是从登录后浏览器中复制的如果不加cookie会提示无法登录因为你之前没有登陆过加了之后就可以登陆了////////////////////////////////from urllib.request import Request, urlopenfrom fa原创 2020-06-20 22:26:23 · 14858 阅读 · 0 评论 -
使用代理服务器爬取信息
通过代理服务器访问目标可以有效的保护自己网上快代理就可以买IP也就是代理服务器from urllib.request import Request, build_openerfrom fake_useragent import UserAgentfrom urllib.request import ProxyHandlerurl = "http://httpbin.org/get"headers = { "User-Agent": UserAgent().chrome}re原创 2020-06-20 22:25:44 · 323 阅读 · 0 评论 -
跳过HTTPS证书
https=http+sslhttp是明文的一旦有人给你拦截了就没了你访问一个https网站服务器给你返回一个证书一般情况下证书都不可信因为很多都是公司自己做的必须信任爬虫有时候会失败因为有证书这时候你要忽略证书////////////////////from urllib.request import Request, urlopenfrom fake_useragent import UserAgentimport sslurl = 'https://www.1原创 2020-06-20 22:25:12 · 1266 阅读 · 0 评论 -
ajax请求的抓取
访问url返回一个框架这个框架里面是没有内容的这时ajax发送一个新的请求给服务器然后服务器在把数据返回过来填充到框架里AJAX 不是新的编程语言,而是一种使用现有标准的新方法。AJAX 最大的优点是在不重新加载整个页面的情况下,可以与服务器交换数据并更新部分网页内容。说的更简单一点打开一个网页鼠标滑轮往下刷你会发现不断有新的内容出现这就是Ajax功能并不是一时间把所有页面都加载出来而是你刷到哪就给你加载信息////////////////////////////////////原创 2020-06-20 22:24:41 · 216 阅读 · 0 评论 -
贴吧爬取
# 你很厉害# 把老师的代码改了# 居然改成功了# 代码意思是爬取贴吧篮球区# 按页抓取'''http://tieba.baidu.com/f/index/forumpark?cn=%E7%AF%AE%E7%90%83&ci=277&pcn=%E4%BD%93%E8%82%B2%E8%BF%B7&pci=275&ct=&st=new&pn=1中文翻译为https://tieba.baidu.com/f/index/forumpark?cn原创 2020-06-17 22:00:57 · 291 阅读 · 0 评论 -
爬虫之中文url解决办法
# 浏览器传中文参数# 当你抓到包之后# 发现中文的变了,你不认识了,转码了# 或者你写一个带有中文的url的python代码# 例如url = "https://www.baidu.com/s?wd=尚学堂"# 你会发现机器报错from urllib.request import Request, urlopenfrom urllib.parse import quote# quote专门用作中文编码的# print(quote("我爱i"))可以查看中文编码之后的码url =原创 2020-06-17 22:00:11 · 460 阅读 · 0 评论 -
变换User-agent伪装自己
# 上一节中# 我们没有加任何修饰单纯几行python代码# 请求的user-agent是Python-urllib# 很遗憾,服务器很容易就识别出了你是机器人# 所以我们要修改user-agentfrom urllib.request import urlopenfrom urllib.request import Requestfrom random import choiceurl = "http://www.baidu.com"user_agents = [ # 以下原创 2020-06-17 21:59:36 · 525 阅读 · 0 评论 -
初识爬虫
互联网竞争激烈使用爬虫对产品的数据进行挖掘和采集有效的提高了效率爬虫爬的是前端显示的数据,因为是公开的反爬虫比如检测useragent,限制IP,投毒(给你错误的数据)浏览器常用的开发者选项是ElementsConsoleNetwork用的最多的是Network///////////////////////////现在学一下fiddler界面分为三部分左边一个大的,右边两个,一上一下上边是request下边是response最常用的按键是Raw/////////原创 2020-06-17 21:58:55 · 184 阅读 · 0 评论 -
爬虫之post请求
# 网站的登录窗口输入密码和用户名# 然后打开开发者# 勾选 Preserve log#然后选择Network#最后点击登录#然后文件里面找到login.html#里面就有我们登陆的密码和账号from urllib.request import Request, urlopenfrom urllib.parse import urlencodefrom fake_useragent import UserAgenturl = "http://www.sxt.cn/index/logi原创 2020-06-17 21:58:14 · 790 阅读 · 0 评论 -
Python网络爬虫6之中国大学排名
#通过以下我总结#如果程序没有输出#建议你先检查是否连接上了#也就是链接是否存在,状态是否为200#在我复制mooc上程序的时候第一次不能运行并且报错no attribute#原因就在于你压根就没连上去import requestsfrom bs4 import BeautifulSoupimport bs4 def getHTMLText(url): try: ...原创 2019-11-12 13:54:24 · 369 阅读 · 0 评论 -
Python网络爬虫5
#信息标记的三种形式#XML:扩展标记语言,和html非常接近,是基于HTML#JSON:JavaScript中对面向对象形式的一种表达方式,通过有类型键值对表达"key":"value"#所以对于javascript而言可以将json作为其一部分,就简化了编程#感觉javascript和pyhon联系起来了#多个值用中括号,嵌套用大括号,不管是啥都用逗号分隔#缺点没注释#YAM...原创 2019-09-09 16:08:37 · 101 阅读 · 0 评论 -
Python网络爬虫4
#B库的最基本使用import requestsr=requests.get("http://python123.io/ws/demo.html")demo = r.text#我们用pip下的是bs4,只是需要其中的BeautifulSoup类from bs4 import BeautifulSoup#也可以直接import bs4#第二个参数的意思是用html解析器解释demo#最...原创 2019-09-09 16:07:54 · 102 阅读 · 0 评论 -
Python网络爬虫3
#命令行中写python代码遇到循环时要想退出循环按下ctrl+z就可以了#京东商品页面的爬取'''import requestsr = requests.get("https://item.jd.com/33635663912.html")print(r.encoding)#gbk编码print(r.text)''''''import requestsurl = "http:...原创 2019-09-09 16:06:52 · 151 阅读 · 0 评论 -
Python网络爬虫2
#requests库只适合爬取网页,而且是xiaoguimode#scrapy库可以爬取网站和系列网站,属于中等类型的爬取#更大的爬取就是爬取整个internet,这就需要定制开发#服务器可能是按照人数来限制,一个爬虫相当于几百个人同时访问网页#对服务器性能有很大的要求,带来巨大的资源开销#相当于骚扰电话#网络爬虫爬取到的数据可能会被人用来牟利,可能会触犯法律#一些人把自己的照片放到...原创 2019-09-09 16:06:18 · 134 阅读 · 0 评论 -
Python网络爬虫1
#1'''import requestsr = requests.get("http://www.baidu.com")print(r.status_code)#看访问的状态码,为200表示访问成功,不是200表示失败r.encoding = 'utf-8'#编码print(r.text)''''''requests.get(url,params=None,**kwargs)u...原创 2019-09-09 16:05:13 · 167 阅读 · 0 评论 -
就mooc上python网络爬虫第一节疑难问题提出个人看法及解决思路
最近在慕课上学习嵩老师讲的Python网络爬虫,按照嵩老师所讲的以管理员权限打开cmd并使用pip install requests命令安装requests库出现了一个问题,系统无法识别pip命令。按道理安装Python开发环境IDLE时自带pip,可为什么无法识别pip命令?现就这一问题提出个人看法及解决思路。一.解决思路第一种解决思路:直接输入py -m pip install requ...原创 2019-02-20 15:57:55 · 382 阅读 · 0 评论