自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 解决Error:AttributeError: module ‘numpy‘ has no attribute ‘complex‘

# 报错详情:AttributeError: module 'numpy' has no attribute 'complex'. `np.complex` was a deprecated alias for the builtin `complex`. To avoid this error in existing code, use `complex` by itself. Doing this will not modify any behavior and is safe. If you spe

2024-11-02 16:00:54 168

原创 NCCL报错

windows用户可能必须使用“gloo”而不是“nccl”作为后端。windows系统不支持nccl,采用gloo;#nccl:NVIDIA集体通信库。

2024-10-18 23:03:29 367

原创 Huggingface遇到 Couldn‘t reach xxx on the Hub (ConnectionError)解决方法

使用datasets.load_dataset()函数下载数据集失败。在对应的环境名/Lib/urllib/request.py。在下载模型时管用,数据集依旧无法解决。在对应的目录下,打开终端(前提:本机安装了Git)修改 proxyServers。

2024-10-17 16:42:57 449

原创 夏令营1期-对话分角色要素提取挑战赛-第①次打卡

比如我们信息抽取时,应该先理解群聊信息,然后定义抽取的内容,接着限定输出内容,最后将整理好的要求及待处理内容以promopt的形式交给大语言模型。赛题方提供了184条真实场景的群聊对话数据以及人工标注后的字段提取结果,其中训练数据129条,测试数据 55条。2)对于答案不唯一字段,将综合考虑提取完整性、语义相似度等维度判定提取的匹配分数,最终该字段得分为 “匹配分数 * 该字段难度分数”1)对于答案唯一字段,将使用完全匹配的方式计算提取是否正确,提取正确得到相应分数,否则为0分。思考:如何规范抽取的输出?

2024-06-28 23:44:04 1028

原创 第-10-章-使用pyecharts-进行数据展示

pyecharts 是一个用于生成 Echarts 图表的类库, Echarts 是百度开源的一个数据可视化JS 库。用 Echarts 生成的图可视化效果非常好,pyecharts 可以与 Python 进行对接,方便在Python 中直接使用数据生成图,生成结果是一个 HTML 文件,用浏览器打开即可看到效果。安装完成后,直接编写代码绘制地图,地图区域是无法显示的,需要另外安装地图文件。

2024-05-18 11:15:11 425

原创 第-9章-数据分析案例:Python-岗位行情

我们可以进行词频统计,即统计每个词语出现的次数,然后按照比例生成词云。而生成词云可以利用 Wordcloud 库。

2024-05-18 11:13:44 1201

原创 第-8章-Python-爬虫框架-Scrapy(下)

Docker 是基于 Linux 容器的封装,提供了简单易用的容器使用接口。而 Linux 容器是一种虚拟化技术,不是模拟一个完整的系统,而是对进程进行隔离(在进程外嵌套一层),使得进程访问到的各种资源都是虚拟的,从而达到与底层系统隔离的目的。可以简单地将它理解成更轻量级的虚拟机。另外,因为容器是进程级别的,相比虚拟机而言,启动速度更快,资源占用更少。

2024-05-17 23:48:58 758

原创 第-7章-Python-爬虫框架-Scrapy(上)

Scrapy,是用 Python 语言开发的一个快速、高层次的屏幕/Web 抓取框架,用于抓取 Web 站点并从页面中提取结构化数据。Scrapy 使用 Twisted 异步网络请求框架来处理网络通信,不需要额外实现异步框架,而且包含各种中间件接口,能灵活地实现各种需求。Scrapy 的用途广泛,常用于数据挖掘、监测和自动化测试。7.1.1 Scrapy 相关信息官网:https://scrapy.org/官方文档:https://doc.scrapy.org/en/latest/

2024-05-17 23:28:22 587

原创 第-6章-Python-应对反爬虫策略

编写爬虫的目的是自动获取站点的一些数据,而反爬虫则是利用技术手段防止爬虫爬很多初级爬虫非常简单,不管服务器压力,有时甚至会使网站宕机。保护数据,重要或涉及用户利益的数据不希望被别人爬取。商业竞争,多发生在同行之间,如电商。网络代理是一种特殊的网络服务,网络终端(客户端)通过这个服务(代理服务器)和另一个终端(服务器端)进行非直接的连接,简单点说就是利用代理服务器的 IP 上网。透明代理:服务器知道你用了代理 IP,并且知道你的真实 IP。

2024-05-17 23:20:43 1267

原创 第-5章-用数据库存储数据

这种表格存储文件的形式适用于少量数据的情况,当记录很多、字段很多时,打开文件会非常慢,而且卡顿,多个 Sheet 之间不能设计复杂的数据关系,这时就要使用数据库了。

2024-05-17 22:59:46 809

原创 第-4章-用-CSV-和-Excel-存储数据

CSV(Comma-Separated Values)其实就是纯文本,用逗号分隔值,可以分隔成多个单元格。CSV 文件除了可以用普通的文本编辑工具打开,还能用 Excel 打开,但 CSV 和 ExcelPython 中内置了一个 csv 模块用来处理 CSV 文件。

2024-05-17 22:18:58 1158

原创 第-3章-python-爬虫抓包与数据解析

第 3章 Python 爬虫抓包与数据解析3.1 抓包进阶目前,我们已经会使用 Chrome 浏览器自带的开发者工具来抓取访问网页的数据包,但是这种抓包方法有局限性,比如只能监听一个浏览器选项卡,如果想监听多个选项卡,必须打开多个页面。另外,随着智能手机的普及,企业也不像以前一样必须开发一个 PC 端的网站,而是更倾向于制作自己的 App 或微信小程序等。另外比较重要的一点是,App 端的反爬虫没有Web 端那么强,所以移动端的抓包也是一门必备技能。3.1.1 HTTPS 介绍HTTP,它使用 T

2024-05-17 22:07:29 1449

原创 第-2章Python-爬虫基本库的使用

爬虫并没有你想象中的复杂,很多初学者一开始就担忧,比如怎么写代码去构造请求,怎么把请求发出去,怎么接收服务器的响应,需不需要学习 TCP/IP 四层模型的每一层的作用。其实,你不用担忧那么多,Python 已经为我们提供了一个功能齐全的类库——urllib,你只需要关心:要爬取哪些链接、要用到哪些请求头和参数。除此之外,还有一些功能更加强大的第三方类库等。

2024-05-17 21:37:34 923

原创 第-1-章-Python-爬虫概念与-Web-基础

HTML(Hypertext Markup Languag,超文本标记语言)。我们来拆分这个名词,首先是超文本,文本一般指的是文字和符号,而在 HTML 中则可以是图片、音视频等其他媒体,远远超出了文本的范畴,所以称为超文本。其次是标记,在 HTML 中所有内容都叫作标记,用一个标记来包含一块内容,表示其作用,比如标签用来标记一个文章段落。HTML 标签语法。

2024-05-16 17:30:06 859

原创 搭建自己的博客

title: 基于github和Hexo 搭建自己的博客。

2024-05-16 09:18:41 1513

原创 机器学习入门

这些数据可以是结构化的、非结构化的或半结构化的,其应用领域包括图像识别、语音识别、自然语言处理、推荐系统和预测等。《机器学习》(周志华):这是一本介绍机器学习基础理论和方法的优秀教材,覆盖了监督学习、无监督学习和强化学习等主题。《统计学习方法》(李航):这是一本介绍统计学习方法和算法的经典教材,包括感知机、决策树、支持向量机、神经网络等。练习项目和实验:通过实践项目和实验可以巩固所学知识,提高编程和数据处理技能,并深入了解机器学习的应用和挑战。机器学习的目标是通过从数据中学习模式和规律来改善任务的性能。

2023-11-18 08:20:21 77

原创 蓝桥大赛官网校内模拟赛第一期

注意到,因为行列的索引是从 1 开始的,而 Python 的列表索引是从 0 开始的,所以在进行清理操作时,需要将行列的索引减 1。这是一个关于模运算的问题。但是需要注意的是,如果结果为0,那么应该返回7,因为在这个问题中,我们是将周日表示为7而不是0。然后,我们遍历每个信号塔,对于每个信号塔,我们再遍历区域内的每个点,如果该点到信号塔的距离小于等于R,那么就将该点标记为被覆盖。对于每个位置,我们都尝试向上、下、左、右四个方向滑行,如果滑行的方向的高度低于当前位置的高度,那么就继续滑行,否则就停止滑行。

2023-11-16 20:47:58 163 1

原创 python-turtle入门

turtle库笔记

2022-12-16 18:30:36 5310 1

原创 return 函数在python和c语言中的用法

return 函数在python和c语言中的用法

2022-10-17 11:43:41 1022 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除