自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 bs4数据解析用法

bs4进行数据解析数据解析的原理:1.标签定位2.提取标签、标签属性中存储的数据值bs4数据解析的原理:1.实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取环境安装:pip install bs4pip install lxml如何实例化BeautifulSoup对象:from bs4 import BeautifulSoup对象的实例化:1.将本地的html文档中的数据加

2021-09-06 17:28:57 185

原创 python爬虫之爬取天气预报

方法一"""需求:1.爬取全国所有的城市名称以及对应的气温2.保存所有的城市名称以及对应的气温到为csv文件目标url:1.华北地区:http://www.weather.com.cn/textFC/hb.shtml2.东北地区:http://www.weather.com.cn/textFC/db.shtml3.华东地区:http://www.weather.com.cn/textFC/hd.shtml4.华中地区:http://www.weather.com.cn/textFC/hz

2021-09-05 23:06:31 1393

原创 python爬虫之xpath和xml应用——爬取豆瓣评分

# https://movie.douban.com/top250?start=0# https://movie.douban.com/top250?start=25&filter=# https://movie.douban.com/top250?start=50&filter=import requests #获取源代码import lxml #获取电影项目from lxml import etreeimport csv'''第一步:获取网页源码(1)分析目标url

2021-09-04 23:42:24 238

原创 遇到csv文件中有换行的乱码解决方法

遇到csv文件中有换行的乱码的话:1.使用记事本打开CSV文件2.文件-另存为,编码方式选择ANSI3.保存完毕后,再用EXCEL打开这个文件就不会出现乱码的情况。

2021-09-04 20:21:18 1004

原创 正则表达式|爬取百度图片

第一步:明确需求,转换图片需求:爬取百度图片中关于头像的图片,并保存网址:https://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word=头像&ie=utf-8&ie=utf-8观察页面:图片列式以瀑布式罗列,没有一页两页,只有拉动鼠标,不断加载图片,爬取量过大,没有明确数量转换页

2021-09-04 14:13:27 834

原创 python|cookie和session介绍——以12306验证码破解

ccokie和session引入:在浏览一些网页时,要想进行个人操作,就需要 我们的账户以识别个人身份,这时需要输入账户和密码。注意:账户和密码不显示在网页上面,通常是存储在formdata内,要不然个人信息就会泄露,而这种请求就是post请求。而post请求就涉及到cookies和session两个参数。1.1定义cookie:记录身份信息。当登录一个网站,都会在登录页面看到一个可勾选的选项“记住我”。服务器就会生成一个cookies和123

2021-08-28 11:05:00 803

原创 python爬虫|处理不信任SSL证书

1.request模块安装(1)cmd中pip install requests(2)开发者工具pycharm里面的Terminal安装pycharm的file-setting-project-±输入要安装的包2.requests模块2.1常用方法requests.get(网址)方法requests.get(url,headers=headers)import requests#发生请求,获取响应headers = { 'User-Agent': 'Mozill

2021-08-09 18:21:01 689

原创 python爬虫|post的响应,利用python实现有道翻译在线翻译

1.post请求方式1.1 post和get的区别1.2 post特点2.利用request.urllib实现2.1 寻找网页源代码翻译的位置2.2 输入查询内容并转为字节流2.3 利用request.urllib实现请求2.4 美化输出结果3.利用request实现请求方式有两种,分别是get和post。介绍post请求方式获取1.post的请求方式1.1 post...

2021-08-09 16:42:13 274

原创 打印某月日历

打印某月日历import calendarcal= calendar.month(2021,1)print("以下输出2021年1月日历:")print(cal)

2021-08-09 16:12:11 145

原创 python爬虫|urllib.request模块和urllib.parse模块使用

1 urllib.requst使用1.1 基本介绍1.2 urllib.request.urlopen1.3 urllib.request.Request2 urllib.parse 模块使用2.1 urllib.parse.encode()2.2 urllib.parse.quote()的使用2.3 综合练习3 爬虫百度贴吧练习1. urllib requst使用1.1 基本介绍(1)介绍: urllib 的 request 模块可以发送请求,返回 response。(2)用法:u

2021-08-05 18:44:59 579

原创 python|爬虫基本概念介绍

爬虫介绍通讯协议1.端口 逻辑端口2.进行数据通讯分为几?找到对方ip将数据发送到对方指定的应用程序上定义通讯规则3.通讯协议TCP/IP协议HTTP HTTPS爬虫介绍什么是爬虫?代替人去模拟浏览器进行网页操作为什么需要爬虫?为其他程序提供数据源企业获取数据的方式?企业自有的数据;第三方平台购买的数据;爬虫工程师来爬取数据。python做爬虫的优势?简洁,速度快,高效,第三方库多爬虫的分类?通用网络爬虫:爬行对象从一些种子URL扩充到整个Web,主要为门户站点搜

2021-08-05 18:19:22 82

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除