Python爬虫基础
Gao__xi
这个作者很懒,什么都没留下…
展开
-
BeautifulSoup爬虫小结
个人感悟爬虫的最终目的是:爬取网页中的信息,也就是html文档中的信息,可以下几步:获取html文档获取想要内容所在的标签获取想要的内容(一般是标签中的文字信息 ,或者 a 连接 href)代码from bs4 import BeautifulSouphtmltext='''<!DOCTYPE html><html lang="en"><hea...原创 2019-03-19 22:00:28 · 254 阅读 · 0 评论 -
Python爬虫之BeautifulSoup(一)
简单的小例子import requestsfrom bs4 import BeautifulSoup'''1.确定想要爬取的网址信息2.设置请求头信息3.发送请求返回响应4.将请求中的html文档给Beautifulsoup5.通过Beautifulsoup对象对html进行遍历获取信息'''header = { "User-Agent": "Mozilla/5.0 (...原创 2019-03-16 22:02:40 · 405 阅读 · 0 评论 -
Python爬虫实战(1)之千千音乐热歌前50
爬取内容目标分析1.歌曲名称(在class=“song-title”的span下的a标签内)2.获取作者(class=“author_list” 的span 的title属性)代码import requestsfrom bs4 import BeautifulSoup'''1.目标网址 :http://music.taihe.com/top/dayhot2.发送请求,获得...原创 2019-03-20 20:21:38 · 451 阅读 · 0 评论 -
BeautifulSoup四大对象
个人拙见import requestsfrom bs4 import BeautifulSoupurl="https://blog.csdn.net/Gao__xi/article/details/88604425"header = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 ...原创 2019-03-17 21:34:20 · 1520 阅读 · 0 评论 -
Python爬虫实战(2)之爬取NBA球队各个球员头像图片
1.目标页面2.页面分析1.每个队的球员列表都在 class=“team_name”的span下的a标签的href下2.每个球员的头像图标url 为 class=“td_padding”的td 下的a标签的 img的src3.每个球员的姓名为 class=“left”下的b的a标签内(作为图片名称)3.代码from bs4 import BeautifulSoupimpor...原创 2019-03-21 14:04:52 · 1881 阅读 · 2 评论 -
BeautifulSoup之find_all()
代码import requestsfrom bs4 import BeautifulSouppath="https://blog.csdn.net/Gao__xi/article/details/88607021"header={ "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, ...原创 2019-03-18 22:48:11 · 1932 阅读 · 0 评论 -
BeautifulSoup之CSS选择器
选择器这里我们也通过直接写html 测试代码from bs4 import BeautifulSouphtmltext='''<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>选择器</title></...原创 2019-03-19 09:52:01 · 411 阅读 · 0 评论