爬虫
D I Y
这个作者很懒,什么都没留下…
展开
-
关于Get-----Post理------20190301
关于Get-----Post理------20190301** Get: 属于一种网络资源请求模式,会从指定资源的地址获取对应的url的数据,比如你看到的www.baidu.com就属于请求baidu首页的内容,如果你在首页搜索中输入hello world,然后你在查看url的变化,会出现很长的一串url(https://www.baidu.com/s?ie=utf-8&f=8&r...原创 2019-03-01 19:50:54 · 274 阅读 · 0 评论 -
利用python--正则--爬取豆瓣TOP250排行榜
话不多说直接贴上代码 import requests import re import json #定义一个函数,用于解析网页内容 def pase_detail(url): content = requests.get(url).content.decode() movie_content=re.findall(’.?.?(.?).?.?(.?).?(\d{4}) .?(.*?)’,c...原创 2019-03-02 21:40:46 · 311 阅读 · 0 评论 -
python--通过cookie方式抓取js请求方法
1.进入一个丁香园的论坛,通过谷歌开发者工具查看头部信息 2.复制粘贴相关的头部信息,这里的cookie为登陆之后的cookie,所以需要注册一个丁香园的账号 以后会跟新相关的通过requests携带cookie的方式进行爬去,因为这样就不用每次都要去粘贴cookie的相关信息: 3.找到相关的js请求,分析和查看对应的返回结果 import requests import json imp...原创 2019-03-03 12:58:01 · 949 阅读 · 0 评论