m0_60701922-CSDN博客

原创 bs4数据解析用法

bs4进行数据解析数据解析的原理：1.标签定位2.提取标签、标签属性中存储的数据值bs4数据解析的原理：1.实例化一个BeautifulSoup对象，并且将页面源码数据加载到该对象中2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取环境安装：pip install bs4pip install lxml如何实例化BeautifulSoup对象：from bs4 import BeautifulSoup对象的实例化：1.将本地的html文档中的数据加

2021-09-06 17:28:57 185

原创 python爬虫之爬取天气预报

方法一"""需求：1.爬取全国所有的城市名称以及对应的气温2.保存所有的城市名称以及对应的气温到为csv文件目标url:1.华北地区：http://www.weather.com.cn/textFC/hb.shtml2.东北地区：http://www.weather.com.cn/textFC/db.shtml3.华东地区：http://www.weather.com.cn/textFC/hd.shtml4.华中地区：http://www.weather.com.cn/textFC/hz

2021-09-05 23:06:31 1393

原创 python爬虫之xpath和xml应用——爬取豆瓣评分

# https://movie.douban.com/top250?start=0# https://movie.douban.com/top250?start=25&filter=# https://movie.douban.com/top250?start=50&filter=import requests #获取源代码import lxml #获取电影项目from lxml import etreeimport csv'''第一步：获取网页源码（1）分析目标url

2021-09-04 23:42:24 238

原创遇到csv文件中有换行的乱码解决方法

遇到csv文件中有换行的乱码的话:1.使用记事本打开CSV文件2.文件-另存为，编码方式选择ANSI3.保存完毕后，再用EXCEL打开这个文件就不会出现乱码的情况。

2021-09-04 20:21:18 1004

原创正则表达式|爬取百度图片

第一步：明确需求，转换图片需求：爬取百度图片中关于头像的图片，并保存网址：https://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word=头像&ie=utf-8&ie=utf-8观察页面：图片列式以瀑布式罗列，没有一页两页，只有拉动鼠标，不断加载图片，爬取量过大，没有明确数量转换页

2021-09-04 14:13:27 834

原创 python|cookie和session介绍——以12306验证码破解

ccokie和session引入：在浏览一些网页时，要想进行个人操作，就需要我们的账户以识别个人身份，这时需要输入账户和密码。注意：账户和密码不显示在网页上面，通常是存储在formdata内，要不然个人信息就会泄露，而这种请求就是post请求。而post请求就涉及到cookies和session两个参数。1.1定义cookie：记录身份信息。当登录一个网站，都会在登录页面看到一个可勾选的选项“记住我”。服务器就会生成一个cookies和123

2021-08-28 11:05:00 803

原创 python爬虫|处理不信任SSL证书

1.request模块安装（1）cmd中pip install requests(2)开发者工具pycharm里面的Terminal安装pycharm的file-setting-project-±输入要安装的包2.requests模块2.1常用方法requests.get(网址)方法requests.get(url,headers=headers)import requests#发生请求，获取响应headers = { 'User-Agent': 'Mozill

2021-08-09 18:21:01 689

原创 python爬虫|post的响应，利用python实现有道翻译在线翻译

1.post请求方式1.1 post和get的区别1.2 post特点2.利用request.urllib实现2.1 寻找网页源代码翻译的位置2.2 输入查询内容并转为字节流2.3 利用request.urllib实现请求2.4 美化输出结果3.利用request实现请求方式有两种，分别是get和post。介绍post请求方式获取1.post的请求方式1.1 post...

2021-08-09 16:42:13 274

原创打印某月日历

打印某月日历import calendarcal= calendar.month(2021,1)print("以下输出2021年1月日历：")print(cal)

2021-08-09 16:12:11 145

原创 python爬虫|urllib.request模块和urllib.parse模块使用

1 urllib.requst使用1.1 基本介绍1.2 urllib.request.urlopen1.3 urllib.request.Request2 urllib.parse 模块使用2.1 urllib.parse.encode()2.2 urllib.parse.quote()的使用2.3 综合练习3 爬虫百度贴吧练习1. urllib requst使用1.1 基本介绍（1）介绍： urllib 的 request 模块可以发送请求，返回 response。（2）用法：u

2021-08-05 18:44:59 579

原创 python|爬虫基本概念介绍

爬虫介绍通讯协议1.端口逻辑端口2.进行数据通讯分为几？找到对方ip将数据发送到对方指定的应用程序上定义通讯规则3.通讯协议TCP/IP协议HTTP HTTPS爬虫介绍什么是爬虫？代替人去模拟浏览器进行网页操作为什么需要爬虫？为其他程序提供数据源企业获取数据的方式？企业自有的数据；第三方平台购买的数据；爬虫工程师来爬取数据。python做爬虫的优势？简洁，速度快，高效，第三方库多爬虫的分类？通用网络爬虫:爬行对象从一些种子URL扩充到整个Web，主要为门户站点搜

2021-08-05 18:19:22 82

m0_60701922的博客