![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 94
抢钱娃娃
结构专业,也爱编程
展开
-
python-爬虫-猫眼电影TOP100
#!/usr/bin/env python #-*- coding:utf8 -*- #__author__ = "LiDaguo" import requests import re import xlwt url = 'https://maoyan.com/board/4?' headers = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko原创 2020-06-08 19:58:37 · 241 阅读 · 0 评论 -
python项目-爬取豆瓣top250电影信息
爬取豆瓣Top250部电影的信息(名称、排名、评价等) 准备:用浏览器查看分析网页 获取数据:通过HTTP库向目标站点发起请求,可包含额外的heard信息 如果服务器能正常响应,会得到一个response,就是获取到的网页内容 解析内容:得到的内容可能是HTML、json等格式,可以用页面解析库、正则表达式等进行解析(提取有用信息) 保存数据:将提取到的有用信息保存(文本、数据库、或特定格式) 下面代码来自Python爬虫技术5天速成(2020全新合集) 大佬讲课深入浅出,感谢! #!/usr/bin/e原创 2020-05-20 09:46:51 · 1154 阅读 · 0 评论 -
python爬虫-bs4-BeautifulSoup
这节课来学习一下什么是BeautifulSoup库 功能:用于网页的数据解析 BeautifulSoup4将复杂的HTML文档装换为一个复杂的树形结构 每个节点都是python对象,所有对象可以归纳为以下四种: -Tag 标签及其第一个内容(例如:百度一下,你就知道,title为标签) -NavigableString 标签里的内容(字符串)(例如:百度一下,你就知道,为内容) -BeautifulSoup 整个文档(用于整个文档方法的访问) -Comment 特殊的Na原创 2020-05-20 09:20:35 · 282 阅读 · 0 评论