自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 上传大模型到huggingface的方法(不用梯子)

(需要同时有读写权限的,注意token只会展示一次,所以要记得保存);注:预先要在huggingface上创建好对应的模型仓库。安装huggingface-cli。从huggingface申请。

2024-08-10 00:15:37 316

原创 VS Code 远程linux服务器无法建立连接(! install):Acquiring lock on /*/*/.vscode-server/bin/*

取消勾选 Remote SSH: Show Login Terminal。

2024-01-15 00:09:21 723

翻译 UHGEval:无约束生成下的中文大模型幻觉评估

UHGEval: Benchmarking the Hallucination of Chinese Large Language Models via Unconstrained Generation。

2023-11-30 11:34:12 278

原创 GitHub学生包申请经验分享

​GitHub Student Developer Pack 是由GitHub推出的,专门为学生提供免费访问一系列的软件和学习工具。经多次尝试,本人于Nov, 2nd, 2022申请成功,特此将申请经验分享给大家。

2022-11-12 21:44:34 7513 9

原创 提供推荐——学习笔记

推荐系统实例# -*- coding: utf-8 -*-from math import sqrt# 一个涉及影评者及其对几部影片评分情况的字典critics = { 'Lisa Rose': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.5, 'Just My Luck': 3.0, 'Superman Returns': 3.5, 'You, Me and Dupree': 2.5, 'T.

2022-03-23 15:47:37 172

原创 动态网页抓取——学习笔记

1 动态抓取技术简介异步更新技术——AJAXAJAX(Asynchronous Javascript And XML,异步JavaScript和XML)的价值在于通过在后台与服务器进行少量的数据交换就可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下对网页的某部分进行更新。一方面减少了网页重复内容的下载,另一方面节省了流量,因此AJAX得到了广泛的使用。爬取使用AJAX加载的动态网页里的动态加载的内容有两种动态网页抓取的方法:通过浏览器审查元素解析真实网页地址 使用Seleni

2022-03-07 22:08:26 2744

原创 静态网页抓取_学习笔记

在网站设计中,纯粹HTML格式的网页通常被称为静态网页,早期的网站一般都是由静态网页制作的。在静态网页抓取中,有一个强大的Requests库能够让你轻易地发送HTTP请求。1 获取响应内容在Requests中,常用的功能是获取某个网页的内容。import requestsr = requests.get('https://www.baidu.com/')print("文本编码:", r.encoding)print("响应状态码:", r.status_code)print("字符串方

2022-03-02 10:58:15 1288

原创 项目实战 _ 机器学习

参考资料[1] 魏贞原.2018.机器学习:Python实践[M].北京:电子工业出版社

2022-03-01 14:46:07 1085

原创 结果部署 _ 持久化加载模型

结果部署是机器学习项目中的最后一步,也是最重要的步骤之一。选定算法之后,对算法训练生成模型,并部署到生产环境上,以便利用机器学习解决实际问题。模型生成之后,也需要定期对模型进行更新,使模型处于最新、最有效的状态,通常建议3~6个月更新一次模型。参考资料[1] 魏贞原.2018.机器学习:Python实践[M].北京:电子工业出版社...

2022-02-24 16:35:33 2258

原创 选择模型 _ 算法调参

机器学习的模型都是参数化的,可以通过调参来提高模型的准确度。模型有很多参数,如何找到最佳的参数组合,可以把它当作一个查询问题来处理,但调整参数到何时为止呢?应该遵循偏差和方差协调的原则。1 机器学习算法调参调整算法参数是采用机器学习解决问题的最后一个步骤,有时也被称为超参数优化。学会调参是进行机器学习的前提。参数可以分为两种:一种是影响模型在训练集上的准确度或防止过拟合能力的参数;另一种是不影响这两者的参数。模型在样本总体上的准确度由其在训练集上的准确度及其防止过拟合的能力共同决定,所以在调参时主要

2022-02-22 22:34:51 839

原创 优化模型 _ 集成算法

1 集成算法参考资料[1] 魏贞原.2018.机器学习:Python实践[M].北京:电子工业出版社

2022-02-22 11:50:30 1001

原创 选择模型 _ 自动流程

1 机器学习的自动化流程参考资料[1] 魏贞原.2018.机器学习:Python实践[M].北京:电子工业出版社

2022-02-19 09:19:22 134

原创 选择模型 _ 算法比较

1 选择最佳的机器学习算法当参与一个机器学习的项目时,会经常需要选择一种合适的算法模型。每种模型都有各自适合处理的数据特征,通过交叉验证等抽样验证方式可以得到每种模型的准确度,并选择合适的算法。通过这种评估方法,可以找到一种或两种最适合问题的算法。当得到一个新的数据集,应该通过不同的维度来审查数据,以便于找到数据的特征,这种方法也适用于选择算法模型。同样需要从不同维度,用不同的方法来观察机器学习算法的准确度,并从中选择一种或者两种对问题最有效的算法。可以通过可视化的方式展示平均准确度、方差等属性,以

2022-02-18 17:02:32 296

原创 选择模型 _ 审查回归算法

1 线性算法1.1线性回归算法from pandas import read_csvfrom sklearn.model_selection import KFoldfrom sklearn.model_selection import cross_val_scorefrom sklearn.linear_model import LinearRegression# 导入数据filename = 'housing.csv'names = ['CRIM', 'ZN', 'INDUS'.

2022-02-18 16:27:44 444

原创 选择模型 _ 审查分类算法

1 算法审查参考文献[1] 魏贞原.2018.机器学习:Python实践[M].北京:电子工业出版社

2022-02-17 17:06:35 395

原创 选择模型 _ 算法评估矩阵

1 算法评估矩阵1.1 分类算法矩阵1.1.1 分类准确度分类准确度是算法自动分类正确的样本数除以所有的样本数得出的结果。通常,准确度越高,分类器越好。这是分类算法中最常见,也最容易被误用的评估参数。准确度是一个很直观的评价指标,但有时候准确度高并不代表算法就一定好。from sklearn.model_selection import KFoldfrom sklearn.model_selection import cross_val_scorefrom sklearn.linear

2022-02-16 17:04:49 525

原创 选择模型 _ 评估算法

参考资料[1] 魏贞原.2018.机器学习:Python实践[M].北京:电子工业出版社s

2022-02-14 09:36:35 477

原创 数据预处理及数据特征选择

1 数据预处理数据预处理大致分为三个步骤:数据的准备、数据的转换、数据的输出。1.1 格式化数据scikit-learn提供了适合和多重变换(Fit and Multiple Transform)和适合和变换组合(Combined Fit-and-Transform)两种标准的格式化数据的方法。推荐优先使用适合和多重变换(Fit and Multiple Transform)方法。1.2 调整数据尺度# # # 调整数据尺度(0..)from pandas import read_c

2022-02-13 10:38:40 1514

原创 机器学习 _ 数据理解

1 数据导入在机器学习中使用的数据通常会以csv的格式来存储,或者能够方便地转化为csv格式1.1 采用标准Python类库导入数据from csv import readerimport numpy as np# 采用标准的Python类库导入csv数据filename = 'pima_data.csv'with open(filename, 'rt') as raw_data: readers = reader(raw_data, delimiter=',') x

2022-02-10 10:52:02 898

原创 机器学习项目实践步骤简述

1 基本步骤1.1 导入数据1.1.1 导入类库1.1.2 导入数据集1.2 概述数据1.3 数据可视化1.4 评估算法1.5 实施预测

2022-02-09 11:08:10 222

原创 Python函数模块

一、函数转换为模板模块是一个包含Python代码的文本文件,需要把代码保存到一个适当命名的文件中:def print_lol(the_list): for each_item in the_list: if isinstance(each_item,list): print_lol(each_item) else: print(each_item)二、注释代码"""这是"nester.py"模块,提供

2021-10-22 08:11:48 430

原创 Python列表学习

目录一、列表创建1.1 创建列表1.2 输出列表二、向列表增添数据三、处理列表数据3.1 For循环3.2 While循环四、在列表中嵌套列表五、在列表中查找列表5.1 isinstance()5.2 嵌套循环5.3 创建(递归)函数一、列表创建1.1 创建列表cast = ["Cleese","Palin","Jones","Idle"]注:Python没有变量标识符1.2 输出列表print(cast) #输出该列表...

2021-10-19 21:47:09 357

原创 数学建模_拟合算法

基本概念拟合:拟合问题的目标是寻求一个函数,使得该曲线在某一准则下与所有的数据点最为接近,即曲线拟合的最好。拟合和插值的区别:拟合不需要曲线经过所有给定的点,拟合的结果是得到一条确定的曲线,而插值算法得到的多项式需要经过所有的样本点,但如果样本点太多,那么多项式的次数过高,会造成龙格现象。龙格现象:在计算方法中,有利用多项式对某一函数的近似逼近,计算相应的函数值。一般情况下,多项式的次数越多,需要的数据就越多,而预测也就越准确。插值次数越高,插值结果越偏离原函数的现象称为龙格现象。最小二乘法

2020-07-29 16:37:13 1714

ZhihuSpider

知乎爬虫:爬取知乎某一问题下的所有回答(回答数小于800左右) ## 基本思路 - 目前项目爬取的机制是将滚动条拉取到页面底端,然后一次性抓取所有的回答元素,但由于目前知乎的缓冲加载机制,当回答数量过多时(大概800左右),前面的回答信息就抓取不到了; - 拟解决思路:边滚动边抓取(但不方便进行元素定位以避免重复抓取) ## 项目结构 ``` │ config.py # 爬取链接及存储路径设置 │ README.md │ requirements.txt │ ZhihuSpider.py # 知乎爬虫主程序 │ ├─Driver │ chromedriver.exe # Chrome驱动 │ geckodriver.exe # gecko驱动 │ └─Results result-2022-07-28-深度神经网络DNN是否模拟了人类大脑皮层结构.csv # 抓取结果样例 ```

2023-02-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除