![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 61
JuneLWH
day day no bug, line line so easy, work hard hard, money up up
展开
-
DAY04
DAY04 一. BeautifulSoup的使用 BeautifulSoup4:简称bs4 作用:能够在html或者xml文档中查找选择所需内容 bs4是python实现的模块 from bs4 import BeautifulSoup BeautifulSoup(参数1, 参数2) 参数1:前端页面的字符串类型源码。 参数2:四种解析器 # 对页面源码使用BeautifulSoup解析 --> 解析后的类型是bs # soup = BeautifulSoup(html, "html.pa原创 2022-05-21 14:50:27 · 151 阅读 · 0 评论 -
Beautiful Soup4
原创 2022-05-21 14:47:30 · 176 阅读 · 0 评论 -
DAY02
DAY02 一. 批量下载图片 import requests import json for i in range(1, 10): URL = 'https://api.ixiaowai.cn/api/api.php?return=json' resp = requests.get(url=URL) resp.encoding = 'utf-8-sig' # print(resp.text) # 序列化 data = json.loads(resp.tex原创 2022-05-21 11:22:50 · 97 阅读 · 0 评论 -
DAY01
DAY01 一. 认识爬虫 数据分析、数据挖掘 先分析、再挖掘 --> 前提:有数据。 数据来源 数据库。 爬虫。 其他平台(API)。 爬虫 Spider:蜘蛛。–> 爬虫:可以在互联网的任意位置获取数据。 爬虫概念: 爬虫,别名(网页蜘蛛、蠕虫),学名:网络数据采集。 根据程序员的自定义规则(想法)在互联网中自动的爬取数据(图片、音频、视频、文字等都叫做数据)。 爬虫学习流程 1)爬虫对谁做操作? 表面:爬虫对网页做操作。 深层次:爬虫对服务器做操作。 2原创 2022-05-11 21:02:22 · 60 阅读 · 0 评论 -
DAY03
DAY03 一. 认识html <!--前端三大技术: 1.HTML:提供文字,图片,音频,视频,按钮,输入框等内容是显示 2.CSS:将HTML显示的内容进行布局和样式渲染 3.Javascript:提供了页面内容的变化 --> <!-- HTML:超文本标记语言(HyperText Markup language) 后缀名:.html .htm (.shtml .shtm) -> 内置了ssi命令,可以和服务器通信,更新页面内容。 DOS操作系统原创 2022-05-11 19:41:42 · 209 阅读 · 0 评论