- 博客(11)
- 收藏
- 关注
原创 bs4数据解析用法
bs4进行数据解析数据解析的原理:1.标签定位2.提取标签、标签属性中存储的数据值bs4数据解析的原理:1.实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取环境安装:pip install bs4pip install lxml如何实例化BeautifulSoup对象:from bs4 import BeautifulSoup对象的实例化:1.将本地的html文档中的数据加
2021-09-06 17:28:57
185
原创 python爬虫之爬取天气预报
方法一"""需求:1.爬取全国所有的城市名称以及对应的气温2.保存所有的城市名称以及对应的气温到为csv文件目标url:1.华北地区:http://www.weather.com.cn/textFC/hb.shtml2.东北地区:http://www.weather.com.cn/textFC/db.shtml3.华东地区:http://www.weather.com.cn/textFC/hd.shtml4.华中地区:http://www.weather.com.cn/textFC/hz
2021-09-05 23:06:31
1393
原创 python爬虫之xpath和xml应用——爬取豆瓣评分
# https://movie.douban.com/top250?start=0# https://movie.douban.com/top250?start=25&filter=# https://movie.douban.com/top250?start=50&filter=import requests #获取源代码import lxml #获取电影项目from lxml import etreeimport csv'''第一步:获取网页源码(1)分析目标url
2021-09-04 23:42:24
238
原创 遇到csv文件中有换行的乱码解决方法
遇到csv文件中有换行的乱码的话:1.使用记事本打开CSV文件2.文件-另存为,编码方式选择ANSI3.保存完毕后,再用EXCEL打开这个文件就不会出现乱码的情况。
2021-09-04 20:21:18
1004
原创 正则表达式|爬取百度图片
第一步:明确需求,转换图片需求:爬取百度图片中关于头像的图片,并保存网址:https://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word=头像&ie=utf-8&ie=utf-8观察页面:图片列式以瀑布式罗列,没有一页两页,只有拉动鼠标,不断加载图片,爬取量过大,没有明确数量转换页
2021-09-04 14:13:27
834
原创 python|cookie和session介绍——以12306验证码破解
ccokie和session引入:在浏览一些网页时,要想进行个人操作,就需要 我们的账户以识别个人身份,这时需要输入账户和密码。注意:账户和密码不显示在网页上面,通常是存储在formdata内,要不然个人信息就会泄露,而这种请求就是post请求。而post请求就涉及到cookies和session两个参数。1.1定义cookie:记录身份信息。当登录一个网站,都会在登录页面看到一个可勾选的选项“记住我”。服务器就会生成一个cookies和123
2021-08-28 11:05:00
803
原创 python爬虫|处理不信任SSL证书
1.request模块安装(1)cmd中pip install requests(2)开发者工具pycharm里面的Terminal安装pycharm的file-setting-project-±输入要安装的包2.requests模块2.1常用方法requests.get(网址)方法requests.get(url,headers=headers)import requests#发生请求,获取响应headers = { 'User-Agent': 'Mozill
2021-08-09 18:21:01
689
原创 python爬虫|post的响应,利用python实现有道翻译在线翻译
1.post请求方式1.1 post和get的区别1.2 post特点2.利用request.urllib实现2.1 寻找网页源代码翻译的位置2.2 输入查询内容并转为字节流2.3 利用request.urllib实现请求2.4 美化输出结果3.利用request实现请求方式有两种,分别是get和post。介绍post请求方式获取1.post的请求方式1.1 post...
2021-08-09 16:42:13
274
原创 打印某月日历
打印某月日历import calendarcal= calendar.month(2021,1)print("以下输出2021年1月日历:")print(cal)
2021-08-09 16:12:11
145
原创 python爬虫|urllib.request模块和urllib.parse模块使用
1 urllib.requst使用1.1 基本介绍1.2 urllib.request.urlopen1.3 urllib.request.Request2 urllib.parse 模块使用2.1 urllib.parse.encode()2.2 urllib.parse.quote()的使用2.3 综合练习3 爬虫百度贴吧练习1. urllib requst使用1.1 基本介绍(1)介绍: urllib 的 request 模块可以发送请求,返回 response。(2)用法:u
2021-08-05 18:44:59
579
原创 python|爬虫基本概念介绍
爬虫介绍通讯协议1.端口 逻辑端口2.进行数据通讯分为几?找到对方ip将数据发送到对方指定的应用程序上定义通讯规则3.通讯协议TCP/IP协议HTTP HTTPS爬虫介绍什么是爬虫?代替人去模拟浏览器进行网页操作为什么需要爬虫?为其他程序提供数据源企业获取数据的方式?企业自有的数据;第三方平台购买的数据;爬虫工程师来爬取数据。python做爬虫的优势?简洁,速度快,高效,第三方库多爬虫的分类?通用网络爬虫:爬行对象从一些种子URL扩充到整个Web,主要为门户站点搜
2021-08-05 18:19:22
82
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人