- 博客(59)
- 收藏
- 关注
原创 过拟合问题&正则化引入
过拟合是指机器学习模型在训练数据上表现良好,但在新数据上表现不佳的问题。当模型过分地适应训练数据的特征和噪音时,就会出现过拟合。这样的模型会捕捉到训练数据中的细微特征和噪音,导致在新数据上表现不佳。对于一组数据的拟合存在以下三种情况:1.拟合不足(underfiting),没有经过数据集中主要的点,没有很好地反应点的趋势2.拟合良好3.过度拟合(overfiting),没有过滤掉细微特征和噪声,无法反应整体趋势在分类问题中,我们使用sigmoid函数找决策边界时也会遇到类似的问题的问题:
2024-01-25 10:15:09 469
原创 逻辑回归中的损失函数&梯度下降
交叉熵损失函数(Cross-entropy loss function)是一种用于衡量模型输出与实际标签之间差异的损失函数。在机器学习中,交叉熵损失函数通常用于分类问题中,特别是在逻辑回归和神经网络等模型中。对于一个逻辑回归函数:损失函数公式:简化后的公式:根据损失函数的定义,当的值与目标值越接近,损失函数值越小,预测越准确。所以:
2024-01-21 21:34:24 1689
原创 特征工程(特征提取&数据预处理)
在房价模型的例子中,我们提取房子的长度(frontage)和宽度(depth)作为特征之一。并得到初步的特征方程:然而我们知道,房屋面积可以表示为:。用土地面积作为独立特征可以更好地预测价格,所以我们将作为新的特征提取出来并定义新的特征方程:(大家可能会觉得变量太多。其实现在只是建立了一个初步的模型,在之后使用决策树、正则化等算法可以减少特征数量)
2024-01-08 17:48:29 1180
原创 计算机网络期末复习(知识点)
计算机网络的复习是真的让人头大,知识点非常纷杂。本文根据《计算机网络:自顶而下》这本书的内容进行总结一些知识点,涵盖了计算机网络主要的知识。(为了期末复习)
2023-11-19 23:42:01 833
原创 python特别篇—github基本操作手册
Git是一个分布式版本控制系统,最初由Linus Torvalds开发,用于管理和追踪文件的变化。它可以记录文件的修改历史,并且可以轻松地在不同的分支之间切换。Git的主要特点包括:分布式:每个开发者都可以拥有自己的本地代码仓库,可以在本地进行开发和提交,而不需要依赖中央服务器。这样可以提高开发效率,并且即使服务器出现故障,代码也不会丢失。高效性能:Git的设计目标是快速和高效。它使用了一种称为“快照”的方式来存储文件的变化,而不是每次都保存完整的文件副本。
2023-10-14 23:37:16 1382
原创 Python—Scrapy实践项目
从https://movie.douban/top250爬取电影的标题、评分、主题。我在之前使用普通的爬虫实现了类似的功能,可以对比来进行学习(
2023-10-08 19:57:53 300 1
原创 Python-Scrapy框架(框架学习)
Scrapy是一个用于爬取网站数据的Python框架,可以用来抓取web站点并从页面中提取结构化的数据。基本组件:引擎(Engine):负责控制整个爬虫的流程,包括调度请求、处理请求和响应等。调度器(Scheduler):负责接收引擎发送的请求,并将其按照一定的策略进行调度,生成待下载的请求。下载器(Downloader):负责下载请求对应的网页,可以使用多种下载器,例如基于Twisted的异步下载器和基于requests的同步下载器。
2023-10-07 20:12:43 326
原创 python——Django框架
Django 是一个由 Python 编写的一个开放源代码的 Web 应用框架。使用 Django,只要很少的代码,Python 的程序开发人员就可以轻松地完成一个正式网站所需要的大部分内容,并进一步开发出全功能的 Web 服务 Django 本身基于 MVC 模型,即 Model(模型)+ View(视图)+ Controller(控制器)设计模式,MVC 模式使后续对程序的修改和扩展简化,并且使程序某一部分的重复利用成为可能。
2023-10-03 22:27:54 6259
原创 python数据库——redis
Redis是一个开源的、基于内存的数据结构存储系统,可以用作数据库、缓存和消息中间件。它支持多种数据结构,包括字符串、哈希表、列表、集合和有序集合等。Redis的特点包括高性能、持久化、支持事务和发布/订阅等功能。它通常被用于解决高并发、高性能读写的场景,如缓存、排行榜、实时统计等。
2023-09-28 22:51:57 466
原创 python数据库——Mongodb
MongoDB 是一个开源的数据库系统,它是一个面向文档的数据库,使用 JSON 格式来存储和查询数据。MongoDB 是一个非关系型数据库,它的设计目标是以高性能、高可用性和可扩展性为特点,适用于处理大量的非结构化数据。
2023-09-27 20:33:29 598
原创 python数据库——Mysql
要使用Python操作MySQL数据库,可以使用PyMySQL库。PyMySQL是一个纯Python编写的MySQL客户端库,可以在Python程序中进行MySQL数据库的连接、查询、插入等操作。与之相似的还有mysql官方提供的MySQL Connector/Python也可以实现类似功能。在本文中使用pymysql进行操作。
2023-09-24 15:22:29 440
原创 Python&Web服务器(HTTP协议)
HTTP(Hypertext Transfer Protocol,超文本传输协议)是一种用于在网络上传输超文本数据的协议。它是Web应用程序通信的基础,通过客户端和服务器之间的请求和响应来传输数据。在HTTP协议中连接客户与服务器的方式分为非持续连接和持续连接。它是一种无状态的协议,意味着每个HTTP请求都是独立的,服务器不会记住之前的请求。客户端通过TCP/IP协议与服务器建立连接。HTTP使用默认的端口号80进行通信,但也可以使用其他端口号。客户端向服务器发送HTTP请求。
2023-09-23 23:22:38 1031
原创 Python正则表达式
模式字符串使用特殊的语法来表示一个正则表达式:字母和数字表示他们自身。一个正则表达式模式中的字母和数字匹配同样的字符串。多数字母和数字前加一个反斜杠时会拥有不同的含义。标点符号只有被转义时才匹配自身,否则它们表示特殊的含义。反斜杠本身需要使用反斜杠转义。由于正则表达式通常都包含反斜杠,所以你最好使用原始字符串来表示它们。模式元素(如 r'\t',等价于 '\\t')匹配相应的特殊字符。下表列出了正则表达式模式语法中的特殊元素。如果你使用模式的同时提供了可选的标志参数,某些模式元素的含义会改变。
2023-09-23 12:13:56 208
原创 python网络编程(Tcp/Ip网络通讯协议)
Python网络编程是指使用Python编程语言进行网络通信和网络应用开发的技术。Python提供了一系列的网络编程库和模块,可以方便地进行网络通信、创建网络服务器、编写网络应用等。Python的网络编程模块包括socket、select、asyncio等。其中,socket模块是Python最基础、最常用的网络编程模块,提供了对套接字编程的支持,可以创建TCP、UDP等类型的套接字,进行网络通信。select模块提供了对I/O多路复用的支持,可以同时监听多个套接字的I/O事件。
2023-09-23 11:10:38 3634
原创 Python标准库(Python自带的模块和包)
自带电池”指python语言的标准库,因为它包含了丰富的功能和工具,几乎可以满足大部分的开发需求,就像一个内置电池一样,所以python标准库被称之为“自带电池”。
2023-09-19 22:22:19 1798
原创 python并发编程
本文介绍了异步编程的一些知识,包括进程、线程、协程和异步编程的知识。由于本人能力有限,有些地方没有学会,暂时无法给出更加详细的示例
2023-09-16 23:50:43 94
原创 Python异常处理
在上文中提到了finally的使用方法,finally子句是try-except语句块中最后处理的语句,一般用于清理操作,例如关闭文件、释放资源、恢复状态等。在使用时有以下特点:如果执行try子句期间触发了某个异常,则某个except子句应处理该异常。如果该异常没有except子句处理,在finally子句执行后会被重新触发。except或else子句执行期间也会触发异常。同样,该异常会在finally子句执行之后被重新触发。如果finally子句中包含breakcontinue或return。
2023-09-13 16:54:16 278
原创 python生成器、迭代器和装饰器
迭代器(Iterator)是一个对象,它实现了迭代器协议,即实现了__iter__()和__next__()方法。迭代器可以通过调用内置函数iter()来创建,并且可以通过调用内置函数next()来逐个获取迭代器中的值。这种访问风格清晰、简洁又方便。迭代器的使用非常普遍并使得 Python 成为一个统一的整体。在幕后,for 语句会在容器对象上调用__iter__()。该函数返回一个定义了方法的迭代器对象,此方法将逐一访问容器中的元素。当元素用尽时,将引发异常来通知终止for循环。你可以使用。
2023-09-12 21:30:04 108
原创 面向对象的程序设计与python生态
面向对象编程(Object-Oriented Programming,简称OOP)是一种常用的编程范式,旨在通过将程序划分为对象来提高代码的可重用性和可维护性。OOP的核心思想是将数据和操作数据的方法封装到一个对象中,从而使得程序更加模块化和易于理解。:封装指的是将数据和方法封装到一个对象中,使其成为一个独立的实体:继承允许一个对象继承另一个对象的属性和方法,从而实现代码的重用:多态允许不同的对象对同一方法做出不同的响应,增加了代码的灵活性和可扩展性。
2023-09-11 19:18:23 45
原创 Python组合数据类型
Python的组合数字类型是指可以存储多个数字的数据类型。Python中常见的组合数字类型包括列表(list)、元组(tuple)、集合(set)、 字典(dict)。
2023-09-05 20:41:21 788
原创 python流程控制
pass语句:pass的意思是空语句,pass语句不做任何事情,只是为了保持程序结构的完整性。在每次循环中,变量名会依次取序列中的每个元素,并执行代码块中的代码。注:根据condition的数量,可以增加elif的数量。可迭代对象包括:列表、元组、字符串等。
2023-09-04 09:23:47 59
原创 数据库系统概论——关系数据库
1.关系简单来说。关系数据库中的表可以通过共享一个或多个列来建立关系。这种关系可以是一对一、一对多或多对多的关系。一对一关系:两个表之间的每个记录在另一个表中只对应一个记录。例如,一个人和一个身份证号码之间的关系。一对多关系:一个表中的每条记录可以对应另一个表中的多条记录。例如,一个订单可以对应多个订单项。多对多关系:两个表中的每个记录可以对应另一个表中的多个记录,同时另一个表中的每个记录也可以对应多个记录。例如,一个学生可以选择多个课程,一个课程也可以有多个学生选择。2.元组。
2023-08-31 20:45:43 134
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人