自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 爬取建标库规范全文到本地word(selenium+python-docx+tesseract实现)

自从上次发过一篇爬取建标库规范信息的文章后,后台有很多小伙伴留言问我,爬信息太简单了,他想要的是规范正文内容,能不能爬呢。最近刚好闲下来,抽空看了一下,爬正文似乎不是那么简单,不过你大爷还是你大爷,方法总比问题多,今天就给大家带来爬取建标库规范全文到本地word,通过selenium+python-docx+tesseract实现。

2022-05-20 17:48:54 1752 2

原创 逻辑回归算法

目录引言一、逻辑回归算法的原理1.1 预测函数1.2 损失函数(代价函数)二、案例实现2.1 梯度下降法实现线性逻辑回归2.2 sklearn实现线性逻辑回归引言逻辑回归算法的名字里虽然带有“回归”二字,但实际上逻辑回归算法是用来解决分类问题的算法。线性回归和逻辑回归相当于一对“孪生兄弟”,本文将从二分类入手,介绍逻辑回归算法的预测函数、损失函数(代价函数)和梯度下降算法公式,小伙伴们可以不断联想线性回归与逻辑回归的区别与联系。一、逻辑回归算法的原理假设有一场球赛,我们有两支球队的所有出场球员信

2021-12-13 16:57:12 4299

原创 线性回归模型——梯度下降算法

目录引言线性回归介绍手动实现梯度下降法线性回归调用API接口实现线性回归引言线性回归可能是我们接触最早的机器学习算法了,在高中数学的课本上,我们第一次正式认识这位朋友,通过最小二乘法来得到数据的线性回归方程,进而求得模型的参数。但其实,在初中时,我们就学过通过两个已知点坐标求解一次函数的技能,这也算是线性回归模型的一种特例吧。今天来给大家介绍另一种求解线性回归模型的方法——梯度下降法。线性回归介绍线性回归定义线性回归(Linear regression)是利用回归方程(函数)对一个或多个自

2021-10-23 17:06:36 10328

原创 KNN算法介绍及案例

目录一、KNN介绍K-近邻(K-Nearest Neighboor)算法定义理解K近邻总结KNN⼯作流程二、案例实现作为机器学习中最基础的算法,KNN在简单分类问题上有其独特的优势,其理念类似于中国的成语“近朱者赤,近墨者黑”,这种将特征数字转化为空间距离判断的方法也是我们认识机器学习世界的第一步。一、KNN介绍K-近邻(K-Nearest Neighboor)算法定义如果⼀个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的⼤多数属于某⼀个类别,则该样本也属于这个类别。理解K近邻

2021-08-24 16:02:43 10502 1

原创 数据分析——第15节课matplotlib作业

目录练习1作业2作业3作业4练习1为了对某一产品进行合理定价,我们对此类商品进行了试销实验,价格与需求量数据如下。利用图表分析规律。价格 60 80 40 30 70 90 95需求量 100 50 120 135 65 45 40price = [60,80,40,30,70,90,95]sales = [100,50,120,135,65,45,40]代码import numpy as npimport pandas as pdimport matplotlib.pyplot

2021-08-23 10:34:50 175

原创 数据分析——pandas时间序列

目录1. time模块三角转换关系2. 练习一3. 练习二1. time模块三角转换关系2. 练习一统计出911数据中不同月份的电话次数代码import numpy as npimport pandas as pdnoo_df = pd.read_csv('911.csv')print(noo_df.info())print(noo_df.head())noo_df['timeStamp'] = pd.to_datetime(noo_df['timeStamp'])noo

2021-08-13 16:15:11 125

原创 数据分析——作业4

目录作业一1.拼接多个csv文件2.去除重复数据,重新索引3.自动挡和手动挡数目4.计算每个城市二手车数量5.统计每个汽车品牌平均售价价格(不是原价)作业一1.拼接多个csv文件2.去除重复数据,重新索引3.自动挡和手动挡数目4.计算每个城市二手车数量5.统计每个汽车品牌平均售价价格(不是原价) (提示:groupby,可以先不做)1.拼接多个csv文件代码import numpy as npimport pandas as pdimport osguazi_li

2021-08-08 16:13:49 605 3

原创 数据分析——pandas作业3

目录第一题1.读取lianjia.csv文件里的数据2.观察结构,调整列索引顺序3.增加一个列关于目前状况(state),是否卖出状态随机设定4.查找楼层低的房子(这里提取低楼层)5.电梯这列存在缺失值,想办法处理下缺失值第一题1.读取lianjia.csv文件里的数据2.观察结构,调整列索引顺序(Region",“Garden”,“Layout”,“Floor”,“Year”,“Size”,“Elevator”,“Direction”,“Renovation”,“Price”)3.增加一个列关于

2021-08-06 11:11:53 392 2

原创 数据分析——pandas作业2

目录第一题1.读取 五粮液2020.xlsx 数据2.查看该数据的基本信息3.计算每一天各指标的差异值4.计算其 pre_close 的增长率5.将 pre_close 的增长率添加至数据中(新增列)6.将 pct_change 该列 呈现的 NaN 用0填充7.查看 pre_close 与 pct_change 的相关性8.将 pct_change 这列乘以100 保留两位小数 成为百分比第一题1.读取 五粮液2020.xlsx 数据2.查看该数据的基本信息3.计算每一天各指标的差异值4.计算

2021-08-01 16:45:18 733 2

原创 数据分析——Pandas作业1

目录第一题第二题第一题score = pd.Series(data=[90,95,85,78,np.NAN,96,94,np.NAN,80,87,86,83],index=range(1,13),name='score')score.index.name = "class"score(1)创建一个Series对象(2)查看1-5班的成绩(3)查看哪个班级的成绩没有录入(4)获取11班的成绩(5)在每个人的成绩加5分(6)找出成绩在90分以上的班级代码import numpy

2021-07-30 10:38:26 564

原创 数据分析——numpy练习题

目录第一题第二题第三题第四题1.不改变原来数组2.改变原来数组第五题第六题第七题第八题第九题第十题第十一题第一题查看Numpy的版本号代码import numpy as npprint(np.__version__)运行结果第二题如何创建一个所有值都是False的布尔类型的数组代码import numpy as nparr1 = np.full((3, 4), False)print(arr1)print(arr1.dtype)运行结果第三题

2021-07-28 00:29:41 1075

原创 数据分析——Numpy索引和切片

目录作业1作业2作业3作业4作业5作业1将np.arange(10)数组中的奇数全部都替换成-1。代码import numpy as nparr1 = np.arange(10)arr1[1::2] = -1print(arr1)运行结果作业24行4列的数组(比如:np.arange(16).reshape((4,4))),请将其中对角线的数取出来形成一个一维数组。提示(使用np.eye)。思路考虑到np.eye的特性是对角线的数值为1,其余为0,可以方便的利用

2021-07-22 23:40:03 298

原创 tesseract破解css反爬抓取自如租房信息

引言作为一个刚毕业两年的打工人,在深圳这种房价压死人的城市,买房是不可能买房了,只能寄希望于租到一个便宜又舒适的房子。今天给大家带来的案例是tesseract破解css反爬抓取自如租房信息,将好房源尽收囊中。一、分析页面1、进入自如租房网站(url链接:https://sz.ziroom.com/z/p1/),打开页面,如图所示,城市选择深圳,可以看到,有很多租房信息,包括:房源名称、面积/层数、地理位置、价格,其中价格是比较重要的数据。2、我们点击到第2页,可以看到网址变成了:https:/

2021-05-31 15:49:27 291

原创 python爬取建标库规范信息并保存到本地

1. 引言作为一只土木狗,从进入大学的那一天起就开始和各种各样的规范打交道,不管是混凝土、钢结构、砌体结构规范,还是抗震、基础、荷载、高层规范,可以这么说,整个大学基本就是在学各个规范的原理性知识。工作以后,但凡是从事规划、设计、施工等工作更是离不开这些规范。今天给大家带来一个案例,用python爬取建标库网站的规范信息,并保存到本地,下面跟随我一起来实践吧。2. 分析页面进入建标库网站,我们找到“国家规范>建筑专业”版块,url链接(http://www.jianbiaoku.com/we

2021-04-16 16:11:28 4118 4

原创 Python爬取全书网小说全文——正则表达式的应用

1. 引言各位读者新年好,今天给大家带来的案例是爬取全书网小说全文,主要用到了正则表达式。我们知道,正则表达式一般用来进行格式化的精确匹配,用来爬取多文本的内容非常方便。本次采用面向过程的方法,理解起来较为简单。2. 代码实现过程首先进入全书网(网址:https://www.xs4.cc/),随便选一篇小说,比如这个《我在古代日本当剑豪》这一偏小说。点进去之后可以看到已经更新到352章了。接下来就是正式爬取的过程了,总共分为五个步骤:1 获取小说列表页面源代码2 获取每章的URL3 获

2021-03-30 11:49:23 1999

原创 Python爬取新东方在线网站大学英语六级词汇

文章目录引言分析页面代码实现引言大学英语六级几乎是每个大学生必过的考试,不管是读研还是找工作,很多都有这方面的要求,而六级词汇是其中重要的一环。今天给大家带来一个案例,用python爬取新东方在线网站的大学英语六级大纲词汇,并保存到本地,下面跟随我一起来实践吧。分析页面url链接:https://cet6.koolearn.com/20181225/825301.html,打开页面,如图所示:我们需要2019年6月大学英语六级大纲词汇带音标:A—Z,由于每个字母开头的词汇位于不同的链接,因此

2021-03-24 11:27:50 1079

原创 第十五讲 异常处理及文件操作——Seasons in the sun

第十五讲目录1. 异常1.1 异常简介1.2 异常的传播1.3 异常对象2. 文件2.1 文件打开2.2 关闭文件2.3 文件的读取2.3.1 读取文件2.3.2 较大文件的读取2.4 文件的写入2.5 二进制文件的读写操作1. 异常1.1 异常简介程序在运行过程中可能会出现一些错误。比如: 使用了不存在的索引,两个不同类型的数据相加…这些错误我们称之为异常处理异常 程序运行时出现异常,目的并不是让我们的程序直接终止!Python是希望在出现异常时,我们可以编写代码来对异常进行处理案例pr

2021-03-04 00:00:14 121 2

原创 第十四讲 模块——Seasons in the sun

第十四讲目录1. 单例模式1.1 \_\_new__()方法练习1.2 对象创建执行顺序练习注意\_\_init__()与\_\_new__()区别1.3 单例模式单例模式介绍单例模式实现2. 模块2.1 模块的简介和创建2.1.1 模块的简介2.1.2 模块的创建1. 单例模式1.1 __new__()方法__new__()方法用于创建与返回一个对象。在类准备将自身实例化时调用。练习以下代码打印输出的顺序?class Demo(object): def __init__(self

2021-03-03 22:51:43 127 2

原创 第四讲 运算符——Seasons in the sun

第四讲目录1. 运算符1.1 运算符的概念1.2 运算符的分类1.3 算术运算符1.4 比较运算符1.5 逻辑运算符1.5.1 not 逻辑非1.5.2 and 逻辑与1.5.3 or 逻辑或1.5.4 非布尔值的与或运算1.6 条件运算符(三元运算符)1.7 运算符的优先级2. 作业第三题1. 运算符1.1 运算符的概念运算符用于执行程序代码运算,会针对一个以上操作数项目来进行运算。例如:2+3,其操作数是2和3,而运算符则是“+”1.2 运算符的分类算术运算符赋值运算符比较运算符(关

2021-02-28 22:29:21 66

原创 第十三讲 面向对象(下)——Seasons in the sun

第十三讲目录1. property装饰器2. 继承简介3. 方法重写4. super()5. 多重继承6. 多态7. 属性和方法1. property装饰器我们可以使用@property装饰器来创建只读属性,@property装饰器会将方法转换为相同名称的只读属性,可以与所定义的属性配合使用,这样可以防止属性被修改案例class Person(): def __init__(self, name): self._name = name # getter方法

2021-02-28 22:20:03 98

原创 第十二讲 面向对象(中)——Seasons in the sun

第十二讲目录1. 参数self1.1 属性和方法1.2 self2. 特殊方法3. 封装1. 参数self1.1 属性和方法类中定义的属性和方法都是公共的,任何该类实例都可以访问属性和方法的查找流程当我们调用一个对象的属性时,解析器会现在当前的对象中寻找是否还有该属性,如果有,则直接返回当前的对象的属性值。如果没有,则去当前对象的类对象中去寻找,如果有则返回类对象的属性值。如果没有就报错类对象和实例对象中都可以保存属性(方法)如果这个属性(方法)是所以的实例共享的,则应该将其保存到类对象中

2021-02-24 17:45:35 90

原创 第五讲 python条件控制语句——Seasons in the sun

第五讲目录1. 条件判断1.1 条件判断语句(if语句)1.2 input() 函数1.3 if-else语句1.4 if-elif-else 语句2. 循环控制2.1 while语句2.2 break和continue2.3 for循环遍历2.3.1 for循环2.3.2 range(start, stop[, step])3. 循环嵌套4. 课后作业第三题解法1解法2第四题第五题1. 条件判断1.1 条件判断语句(if语句)执行的流程:if语句在执行时,会先对条件表达式进行求值判断,如果为

2021-02-18 18:10:24 128

原创 第十一讲 高级编程&面向对象(上)——Seasons in the sun

第十一讲目录1. 推导式2. 生成器背景创建生成器的方式3. 迭代器4. 面向对象(上)4.1 面向对象简介4.2 类(class)4.3 类的定义1. 推导式推导式分为 列表推导式、字典推导式、集合推导式等。在这里我们主要说其中一种也是用的最多列表推导式列表推导式是Python构建列表(list)的一种快捷方式,可以使用简洁的代码就创建出一个列表简单理解就是由一个旧的列表来构建出一个新的列表语法[表达式 for 变量 in 旧列表][表达式 for 变量 in 旧列表 if 条件]

2021-02-07 15:26:58 142 2

原创 第十讲 函数下——Seasons in the sun

第十讲目录5.作业第一题5.作业第一题import timedef cal_time1(fn,*args,**kwargs): def cal_time2(*args, **kwargs): a=time.time() r = fn(*args, **kwargs) print(r) b=time.time() print('函数执行所花费了', b-a, '秒') return cal_time2

2021-02-07 14:20:02 95

原创 第九讲 函数中——Seasons in the sun

第九讲目录1. 函数的返回值2. 文档字符串3. 函数的作用域4. 命名空间5. 递归函数6.课后作业第一题第二题1. 函数的返回值返回值就是函数执行以后返回的结果通过return来指定函数的返回值return后面可以跟任意对象,返回值甚至可以是一个函数2. 文档字符串help()是Python中内置函数,通过help()函数可以查询Python中函数的用法在定义函数时,可以在函数内部编写文档字符串,文档字符串就是对函数的说明3. 函数的作用域作用域(scope)作用域指的

2021-02-03 11:00:40 148 1

原创 第八讲 函数上——Seasons in the sun

第八讲目录1. 集合1.1 集合简介2. 集合的运算2. 函数2.1 函数简介2.2 函数的参数2.2.1 形参和实参2.2.2 函数的传递方式2.3 不定长参数2.4 参数的解包3.课后作业第一题1. 集合1.1 集合简介集合表现形式set 集合和列表非常相似不同点集合只能存储不可变对象集合中存储的对象是无序的集合不能出现重复元素使用{}来创建集合可以通过set()来将序列和字典转换成集合len() 使用len()来获取集合中元素的数量add()像集合中添加元素update()将

2021-01-31 10:49:31 185 5

原创 第七讲 python元组&字典——Seasons in the sun

第七讲目录1.数据结构简介2.元组tuple2.1元组简介2.2元组的表达形式及创建2.3拆包3.字典dict3.1字典简介3.2字典创建3.字典的修改(增删改查)3.3.1 len()3.3.2 in 与 not in3.3.3 获取值3.3.4 修改字典3.3.5 dict.setdefault添加key-value3.3.6 dict.update()3.3.7 del 关键字删除3.3.8 dict.popitem()随机删除3.3.9 dict.pop 删除3.3.10 清空字典3.4 字典的遍历

2021-01-30 10:37:51 227

原创 第六讲-列表——Seasons in the sun

1.列表序列(sequence)基本概念序列是Python中最基本的一种数据结构。序列用于保存一组有序的数据,所有的数据在序列当中都有一个唯一的位置(索引)并且序列中的数据会按照添加的顺序来分配索引数据结构指计算机中数据存储的方式序列的分类可变序列(序列中的元素可以改变):例如 列表(list)不可变序列(序列中的元素不能改变):例如 字符串(str)元组(tuple)列表(list)列表是Python中的一个对象列表的作用列表中可以保存多个有序的数据列表是用来存储对象

2021-01-27 14:15:10 155

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除