自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 数据解析之BS4

bs4的全称为。和lxml一样,是一个html的解析器,主要功能也是解析数据和提取数据。本模块作为了解模块,实际开发中很少用这个模块去解析数据,大家可能会想为什么这个模块会逐渐被淘汰,它就真的一点优点都没有吗?优点吧其实也有,比如设计的接口比较人性化,使用起来比较方便,支持css选择器等等,但是缺点也是非常致命的,就是它的效率是没有 xpath 高,程序界都是很讲效率的,那既然 xpath 也很好用,效率也高,自然而然就没有bs4的市场了,但是大家也要了解该模块,可以不用,但是不能不知道。

2024-01-23 17:55:23 1246 1

原创 数据解析之Xpath

1. xpath基本语法1.1.介绍XPath 使用路径表达式来选取 XML 文档中的节点或节点集。XML,可能很多同学都不知道这是个什么东西,XML和HTML很相似,但是也有本质的区别。这里来简单介绍一下。HTML 是超文本标记语言,HTML 使用标记标签来描述网页,它的文档中包含了 HTML 标签以及文本内容,HTML 文档也叫做 web 页面。XML 是可扩展标记语言,用于创建网页和 web 应用程序。XML 是动态的,可用来传输数据。区别 语言类型不同;HTML 是超文本标

2024-01-14 11:59:03 1283 2

原创 数据解析之正则

运行结束后,就能看到目录级多了一个html文件,我们进入文件,同样使用ctrl + F, 进行搜索,可以发现的确是有这个数据的,那就说明我们写入本地是写入成功了,接下来的调试解析就可以脱机调试了,这里为什么要脱机调试呢,一来是可以减少我们对对方服务器发送请求的次数,防止对方服务器封禁我们的ip,ip被封禁后就需要使用代理ip了,就比较的麻烦;跳过, 我们所需要的数据就用(.*?到此,本页的数据就获取完成了,但是大家可以发现,数据是有多页的,那么怎么办呢,我们就看第二页第三页和第一页的区别。

2024-01-12 17:51:46 1096 1

原创 爬虫 josn模块和josnpath模块

JSON(JavaScript Object Notation, JS对象简谱)是一种轻量级的数据交换格式。它基于 ECMAScript(European Computer Manufacturers Association, 欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。(百度百科)"name": "中国",

2024-01-10 20:00:12 1904 1

原创 PyMySQL的使用

如果使用之前学习的MySQL客户端来完成这个操作,那么这个工作量无疑是巨大的,我们可以通过使用程序代码的方式去连接MySQL数据库,然后对MySQL数据库进行增删改查的方式,实现10000条数据的插入,像这样使用代码的方式操作数据库就称为数据库编程。获取查询结果集中的所有数据: cur.fetchall()返回一个元组,如((1,'张三'),(2,'李四'))# 取出结果集中的所有数据, 例如:((1, '张三'), (2, '李四'), (3, '王五'))

2024-01-10 13:52:38 389 1

原创 爬虫 resquests模块与get请求和post请求

这是一个post请求,可以看到post请求的参数并未在请求url之后以明文的形式拼接,这便是post请求与get请求的一点区别,所以post没有像get请求第一种拼接在url之后的方法请求,只能使用参数传递的形式携带请求参数,话不多说,直接上代码。url = "http://www.xinfadi.com.cn/getPriceData.html" # 明确目标url。# 因为是get请求方式,所以是requests.get(),如果是post请求,那就是requests.post()

2024-01-09 23:10:47 1078 1

原创 Mysql分组和聚合函数的组合使用

insert into goods values(0,'r510vc 15.6英寸笔记本','笔记本','华硕','3399',default,default);insert into goods values(0,'y400n 14.0英寸笔记本电脑','笔记本','联想','4999',default,default);insert into goods values(0,'x550cc 15.6英寸笔记本','笔记本','华硕','2799',default,default);

2024-01-08 22:03:07 924 1

原创 数据库设计之三范式

范式: 对设计数据库提出的一些规范,目前有迹可寻的共有8种范式,一般遵守3范式即可。第一范式(1NF): 强调的是列的原子性,即列不能够再分成其他几列。第二范式(2NF): 满足 1NF,另外包含两部分内容,一是表必须有一个主键;二是非主键字段 必须完全依赖于主键,而不能只依赖于主键的一部分。第三范式(3NF): 满足 2NF,另外非主键列必须直接依赖于主键,不能存在传递依赖。即不能存在:非主键列 A 依赖于非主键列 B,非主键列 B 依赖于主键的情况。

2024-01-07 21:53:04 1170 1

原创 Mysql之表与表之间关系与多表查询

INSERT INTO bigdata_db.product(pid,pname,price,category_id) VALUES(6,'花花公子',440,'c002');INSERT INTO bigdata_db.product(pid,pname,price,category_id) VALUES(8,'海澜之家',1,'c002');#笛卡尔集,将两张表进行相乘(表的行数=A表行数 * B表行数)insert into category values ('c002','服装');

2024-01-07 20:59:52 1052 1

原创 mysql单表的多种查询之DQL操作

INSERT INTO bigdata_db.product(pid,pname,price,category_id) VALUES(5,'真维斯',200,'c002');INSERT INTO bigdata_db.product(pid,pname,price,category_id) VALUES(11,'面霸',5,'c003');#从第10行(第11行)开始显示,显示5行。select * from product where substring(pname,5,1)= '茶';

2024-01-04 21:20:30 953 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除