爬虫
静待缘起
这个作者很懒,什么都没留下…
展开
-
【爬虫】BeautifulSoup的使用
安装 pip install beautifulsoup4 pip install lxml 使用 1. 导入html文档 soup = BeautifulSoup(html_doc,'lxml') 2.获取标题的内容 print(soup.title.string) 3.获取 p 标签里面的内容 print(soup.p.string) 4.获取 title 的父级标签 print(soup.title.parent.name) 5.获取超链接 print(soup.a) 6.获取所有超链接 p原创 2021-11-18 12:27:25 · 582 阅读 · 0 评论 -
爬虫初步探索
可用网址 所有上市公司股票代码:http://ipo.ubaike.cn/list_1/2.html 反爬攻略 Headers核心部分 Requests Headers: • “吾是人!”——修改user-agent:里面储存的是系统和浏览器的型号版本,通过修改它来假装自己是人。 • “我从台湾省来”——修改referer:告诉服务器你是通过哪个网址点进来的而不是凭空出现的,有些网站会检查。 • “饼干!”:——带上cookie,有时带不带饼干得到的结果是不同的,试着带饼干去“贿赂”服务器让她给你完整的信息原创 2021-10-23 10:58:48 · 84 阅读 · 0 评论