Yolanda Yan 9
码龄6年
关注
提问 私信
  • 博客:92,075
    92,075
    总访问量
  • 51
    原创
  • 461,503
    排名
  • 36
    粉丝
  • 0
    铁粉

个人简介:Practice makes perfect.

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2019-11-06
博客简介:

Amy9_Miss的博客

查看详细资料
个人成就
  • 获得102次点赞
  • 内容获得14次评论
  • 获得783次收藏
  • 代码片获得1,474次分享
  • 博客总排名461,503名
创作历程
  • 11篇
    2022年
  • 4篇
    2021年
  • 32篇
    2020年
  • 4篇
    2019年
成就勋章
TA的专栏
  • 数据分析
  • 数据挖掘
    1篇
  • 软件安装
    1篇
  • OCR识别
    2篇
  • 机器学习
    21篇
  • python
    10篇
  • 爬虫相关
    10篇
  • 搜索推荐
    1篇
  • 知识图谱
    1篇
  • NLP
    2篇
  • NER
  • 相关性分析
    1篇
  • python工具包
    7篇
  • 数据库
    2篇
  • 其他
    2篇
  • python绘图
    1篇
  • 中文分词
    2篇
创作活动更多

『技术文档』写作方法征文挑战赛

在技术的浩瀚海洋中,一份优秀的技术文档宛如精准的航海图。它是知识传承的载体,是团队协作的桥梁,更是产品成功的幕后英雄。然而,打造这样一份出色的技术文档并非易事。你是否在为如何清晰阐释复杂技术而苦恼?是否纠结于文档结构与内容的完美融合?无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

49人参与 去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

论文翻译1-----DSSM:Deep Structured Semantic Models

潜在语义模型,比如LSA,打算在基于关键词匹配经常失败的语义级别上将查询映射到其相关的文档。在该研究中,我们努力开发了一系列基于深层结构的新的潜在语义模型,该模型将queries和documents映射到一个公共的低维空间中,在该低维空间中,被给定的query和一个document的相关性是很容易通过它们之间的距离计算得到。本文提出的深度结构语义模型通过使用点击数据最大化给定query的情况下被点击的文档的条件似然估计进行判别训练。
原创
发布博客 2022.09.03 ·
550 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Windows安装neo4j图数据库

Windows安装neo4j图数据库。本文采用neo4j 4.0以上版本,对应JDK版本为11
原创
发布博客 2022.07.06 ·
1622 阅读 ·
1 点赞 ·
2 评论 ·
8 收藏

爬虫入门_9:增量式爬虫

概念:检测网站数据更新的情况,只会爬取网站最新更新出来的数据增量式爬取的核心是去重,去重方法如下:思路:通过redis的set集合实现去重的目的将爬取过程中产生的URL存储到redis的set数据结构中根据sadd(key,value) 的返回结果,判断此 URL 是否已爬取过1 表示没有爬取过,则发起请求; 0 表示已爬取过,则不进行请求示例:在redis中输入以下内容,可以得到下图# 向name(set集)中添加一个'jay'sadd name jaysadd n.
原创
发布博客 2022.02.20 ·
1660 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

爬虫入门_8:scrapy框架

scrapy简介框架:是一个集成了很多功能并且具有很强通用性的一个项目模板如何学习框架?专门学习框架封装的各种功能的详细用法scrapy:爬虫中封装好的 一个明星框架。功能:高性能的持久化存储,异步的数据下载,高性能的数据解析,分布式scrapy框架的基本使用环境的安装:mac or linux : pip install scrapywindows:安装wheel:pip install wheel下载twisted下载地址:https:/
原创
发布博客 2022.02.19 ·
1324 阅读 ·
2 点赞 ·
2 评论 ·
3 收藏

爬虫入门_7:动态加载数据处理及案例实战

selenium模块的基本使用简介selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题。selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到页面渲染之后的结果,可支持多种浏览器。问题:selenium模块和爬虫之间具有怎样的关联?便捷的获取网站中动态加载的数据便捷实现模拟登录selenium模块:基于浏览器自动化的一个模块。环境安装下载安装selenium:pip
原创
发布博客 2022.02.19 ·
1614 阅读 ·
3 点赞 ·
0 评论 ·
18 收藏

爬虫入门_6:高性能异步爬取及案例实战

基本知识目的:在爬虫中使用异步实现高性能的数据爬取操作异步爬取的方式:多线程,多进程(不建议):好处:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作就可以异步执行弊端:无法无限制的开启多线程或者多进程线程池、进程池(适当的使用):好处:我们可以降低系统对进程或线程创建和销毁的频率,从而很好的降低系统的开销弊端:池中线程或进程的数据是有上限单线程+异步协程(推荐):event_loop:事件循环,相当于一个无限循环,我们可以把一些函数注册到这个时间循环上,当满足某些条件的时候,函数
原创
发布博客 2022.02.18 ·
433 阅读 ·
1 点赞 ·
0 评论 ·
7 收藏

爬虫入门_5:requests模块高级使用及案例实战

模拟登录模拟登录:爬取基于某些用户的用户信息。cookiecookie:用来让服务器端记录客户端的相关状态。手动处理:通过抓包工具获取cookie值,将该值封装到headers中(不建议)自动处理:cookie值的来源在哪里?模拟登录post请求后,由服务器端创建session会话对象:作用:可以进行请求的发送如果请求过程中产生了cookie,则该cookie会被自动存储/携带在该session对象中创建一个session对象:session=reque
原创
发布博客 2022.02.18 ·
225 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

爬虫入门_4:验证码识别及案例实战

反爬机制:验证码。需要识别验证码图片中的数据,用于模拟登陆操作。识别验证码的操作人工肉眼识别(不推荐)第三方自动识别(推荐)需要收费,识别率高地址云打码地址超级鹰地址本文通过OCR技术来对验证码图片数据识别(推荐)免费的,识别率一般实战:需求:识别古诗文网登陆页面中的验证码编码流程将验证码图片进行本地下载进行图片数据识别代码实现验证码识别封装在VerificationCode.py文件里,具体代码如下:import re # 用于正则f
原创
发布博客 2022.01.14 ·
773 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

爬虫入门_3:数据解析及案例实战

聚焦爬取:爬取页面中指定的页面内容编码流程:指定url发起请求获取响应数据数据解析持久化存储数据解析分类正则re.M: 多行匹配re.S:单行匹配bs4xpath(***)数据解析原理概述:解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储进行指定标签的定位标签或者标签对应的属性中存储的数据值进行提取(解析)1. 数据解析—正则表达式正则表达式在线测试地址:https://c.runoob.com/front-end/
原创
发布博客 2022.01.14 ·
745 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

爬虫入门_2:requests模块学习及案例实战

1. requets模块初始环境安装pip install requests使用流程指定urlUA伪装请求参数处理基于requests模块发起请求获取响应对象中的数据值持久化存储2. requests案例实战2.1 需求:爬取搜狗首页的页面数据# 导包import requests# step1:指定urlurl = 'https://www.sogou.com/'# step2:发起请求:使用get方法发起get请求,该方法会返回一个响应对象。参数u
原创
发布博客 2022.01.04 ·
688 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

爬虫入门_1:爬虫基础简介

由于最近这段时间在学习爬虫相关知识,所以将相关笔记整理出来,分享给大家~~~1.1 爬虫初始及深入爬虫,就是通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。1.1.1 爬虫在使用场景中的分类通用爬虫抓取系统种农药组成部分。抓取的是一整张页面数据聚焦爬虫是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容增量式爬虫检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据1.1.2 反爬&反反爬机制反爬机制:门户网站,可以通过指定相应的策略
原创
发布博客 2022.01.04 ·
729 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

python自然语言处理--安装JDK和Stanford Parser

1. 安装JDK和设置JAVA_HOME在windows系统上安装JDK和设置JAVA_HOME的步骤如下:下载JDK,点这里,选择相应的JDK,并单击"Download"安装JDK将JDK安装在您的计算机上,例如: C:\Program Files\Java\jdk1.6.0_02 下,如果需要,也可以安装在其他位置安装完成后,设置JAVA_HOME右键点击“我的电脑”,然后选择“属性”在“高级”选项卡上,选择“环境变量”,然后编辑JAVA_HOME,增加JDK所在位置(例如:
原创
发布博客 2021.08.23 ·
646 阅读 ·
3 点赞 ·
0 评论 ·
6 收藏

在windows x64上安装CRFPP并进行地址识别【亲测有效】--python自然语言处理实战

安装CRFPP在百度网盘上下载CRF+±0.58链接:点这里提取码:peub在windows x64上安装,需要在\CRF+±0.58\python\中,运行下面两个语句python setup.py buildpython setup.py install说明:python setup.py install 有可能会遇到权限不足的问题, 需要换成管理员模式安装验证是否安装成功,如果导入后没有报错,则安装成功模型训练及预测在DOS里,进入CRF+±0.5
原创
发布博客 2021.08.07 ·
601 阅读 ·
2 点赞 ·
1 评论 ·
8 收藏

相关性分析【用python&pandas实现】

相关分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个因素的的相关密切程度,相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。判断数据之间的关系,常用的方法有两种:散点图和相关关系。散点图散点图:是判断数据是否具有相关关系最直观的方法。相关系数相关系数是反映两个变量之间线性相关程度的指标(相关系数的平方称为判定系数)常用的衡量变量间相关性的方法主要有三种:Pearson相关系数:即皮尔逊相关系数,用于衡量两个连续性随机变量间的相关系数。Spearman相关系数:
原创
发布博客 2021.07.14 ·
5461 阅读 ·
15 点赞 ·
1 评论 ·
119 收藏

SQL基本知识

1. 数据库概述数据库的两种类型:关系型数据库(Relational Database Management System, RDBMS)和非关系型数据库。关系型数据库的主要产品有:oracle、mysql非关系型数据库的主要产品有:Redis(key-value 存储系统)、MongoDB(基于分布式文件存储的数据库)RDBMS和数据库的关系SQL(Structured Query Language) 是结构化查询语言,是一种用来操作RDBMS的数据库语言,当前关系型数据库都支持使用SQL语言
原创
发布博客 2021.04.07 ·
214 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

集成算法--AdaBoost算法【含python代码】

1. 基于数据集多重抽样的分类器将不同的分类器组合起来,称为集成算法(ensemble method) 或者 元算法(meta-algorithm)。使用集成算法会有多种形式:可以是不同算法的集成,也可以是同一算法在不同设置下的集成,还可以是数据集不同部分分配给不同分类器之后的集成。常用的是基于同一种分类器多个不同实例的两种计算方法。bagging: 基于数据随机重抽样的分类器构建方法自举汇聚法(bootstrap aggregating),也称bagging方法,是在从原始数据集中选择S次后得到S个
原创
发布博客 2020.09.30 ·
2692 阅读 ·
2 点赞 ·
1 评论 ·
41 收藏

回归---OLS、LWLR、缩减方法、岭回归、lasso、前向逐步回归【含python代码】

回归的目的就是预测数值型的目标值。最直接的办法就是写出一个目标值的计算公式,即所谓的回归方程,需要求方程中的回归系数。一旦有回归系数,就可以进行预测了,具体做法是用回归系数乘以输入值,再将结果全部加起来,就得到预测值了。下面首先介绍找出最佳拟合直线的两种方法普通最小二乘法(OLS)和局部加权线性回归(LWLR),然后介绍缩减方法,如岭回归、lasso、前向逐步回归。普通最小二乘法(OLS,Ordinary Least Squares)核心思想:对于给定的数据集上,找出最佳拟合直线,使得真实值与预测值之
原创
发布博客 2020.09.29 ·
1645 阅读 ·
0 点赞 ·
0 评论 ·
13 收藏

【最全的】分类算法的性能度量指标

机器学习分类算法的评价指标有:混淆矩阵(Confuse Matrix)、准确率(Accuracy)、错误率(ErrorRate)、精准率(Precision)和召回率(Recall)、F1 Score、ROC曲线(Receiver Operating Characteristic Curve)、AUC(Area Under the Curve)、KS曲线、Lift值、P-R曲线 。接下来对以上这些指标进行一一解释,并给出多分类问题的综合评价指标,如宏平均、微平均、Kappa系数,最后用一个多分类实例来计算
原创
发布博客 2020.09.23 ·
2924 阅读 ·
7 点赞 ·
0 评论 ·
37 收藏

有监督学习-----支持向量机(含python实现代码)

支持向量机(support vector machines, SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器;SVM的的学习策略就是间隔最大化,SVM的的学习算法就是求解凸二次规划的最优化算法。SVM的实现中,最流行的一种实现是序列最小优化(Sequential Minimal Optimization, SMO)。SVM可以使用核函数(kernel)的方式,可以对非线性可分的数据进行分类。原理希望找到离分隔超平面最近的点,确保它们离分隔面的距离尽可能远。这里点到分隔面
原创
发布博客 2020.09.09 ·
1395 阅读 ·
2 点赞 ·
0 评论 ·
21 收藏

python 简单实现进度条

python实现import sys, timen = 100print("耐心等待......")for i in range(1, n): # \r回到当前行首的位置 rate = (i+1) / float(n) rate_str = str(int(rate * 100)) print("\r" +'完成率为: '+ rate_str +"%", end='', flush=True) sys.stdout.flush() # 立即刷新输出的内容
原创
发布博客 2020.08.17 ·
269 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏
加载更多