Python爬虫
Ljt101222
这个作者很懒,什么都没留下…
展开
-
Python爬虫中的信息提取
一、信息的标记1、标记后的信息可形成信息结构,增加了信息维度。2、标记后的信息可用于通信、储存或展示。3、标记后的结构与信息一样具有重要价值。4、标记后的信息更利于程序的理解与运行二、信息标记的三种形式信息标记的三种形式为:xml、json、yaml。XML :全名为:Extensible Markup Language。可扩展标记语言,标准通用标记语言的子集,是一种用...原创 2018-08-03 16:15:23 · 457 阅读 · 0 评论 -
Python requests库的用法
发送请求使用 Requests 发送网络请求非常简单。一开始要导入 Requests 模块:>>> import requests然后,尝试获取某个网页。本例子中,我们来获取 Github 的公共时间线:>>> r = requests.get('https://github.com/timeline.json')现在,我们有一个...转载 2018-09-05 18:44:38 · 416 阅读 · 0 评论 -
Python黑板客爬虫闯关三
来到第三题,此题是输入昵称和密码,进行登录和注册。但此题比第二题相对难一些。多了Cookie,需要进行获取和处理Cookie的值 。如图 先进行注册,然后输入昵称和密码后,进行登录,进入如图界面(不行的多尝试几次,直到找到这个界面) 代码一一、用urllib.requests库re正则表达式和来完成1、urllib.requests库进行得到网页2、re 正则表达式...原创 2018-09-05 18:26:45 · 423 阅读 · 0 评论 -
Python爬取微博的评论人的微博网址
这次爬取微博以手机客户端为主。打开手机客户端的微博链接为 https://m.weibo.cn进入微博后,随机找到评论多的为例。比如搜索鹿晗。爬取评论鹿晗的评论人的微博网址 打开F12控制台,点击网络,刷新页面往下滑,在控制台出现一些数据,找到数据类型为json,后边是Service Worker.鼠标点击,如图我们可以看到请求的网址。消息头后边的响应。打开响应,如图...原创 2018-08-02 14:49:47 · 2429 阅读 · 0 评论 -
Python黑板客爬虫闯关二
来到第二题,此题是输入昵称和密码,进行登陆。昵称随便,密码是30以内的数字。此题如图 我们需要用Python爬虫方面的知识,这里有两种方法来实现一、用requests库和re正则表达式来完成1、requests库进行得到网页2、re 正则表达式来匹配内容3、此题的思路是用requests.post()请求和 for循环来实现从0到30的输入。随即输入昵称和密码后,在F1...原创 2018-08-10 14:38:14 · 520 阅读 · 0 评论 -
Python中Cookie的知识
Cookie 叫做 储存在用户本地终端上的数据Cookie,有时也用其复数形式 Cookies,指某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据Cookie 在计算机中是个存储在浏览器目录中的文本文件,当浏览器运行时,存储在 RAM 中发挥作用 (此种 Cookies 称作 Session Cookies),一旦用户从该网站或服务器退出,Cookie 可存...原创 2018-08-10 14:11:47 · 508 阅读 · 0 评论 -
Python黑板客爬虫闯关一
http://www.heibanke.com/lesson/crawler_ex00/这是一个练习Python爬虫的非常好的网站。进入该网址,如图 在网址后边输入14901后,如图根据网页给的数字不断更新网址后的数字,直到提示进入下一关为止。分析一下大概思路:用python获取网页,然后从网页的内容中提取这个数字,再把这个数字加在网址后面继续进行以上操作。在这,我们需要r...原创 2018-08-09 09:30:53 · 479 阅读 · 0 评论 -
Python爬取堆糖网图片的代码
import requestsimport urllib.parseimport threading#设置最大线程锁thread_lock = threading.BoundedSemaphore(value=10)# 通过 url 获取数据def get_page(url): page = requests.get(url) page = page.conten...转载 2018-07-20 21:11:21 · 857 阅读 · 1 评论 -
Python爬虫有道词典翻译的代码
import urllib.requestimport urllib.parseimport jsonimport timewhile(1): content = input("请输入你要翻译的内容(按q键退出):") if content=='q': break val="http://fanyi.youdao.com/translate?sma...原创 2018-07-21 14:13:19 · 858 阅读 · 0 评论 -
Python爬虫爬取中国最好大学排行榜
import requestsfrom bs4 import BeautifulSoupimport bs4def getHtmlText(url): r = requests.get(url) r.encoding = r.apparent_encoding html = r.text return htmldef fillUnivList(uli...原创 2019-01-14 15:30:29 · 1351 阅读 · 2 评论