叶小乙颜习社
码龄18年
关注
提问 私信
  • 博客:36,715
    社区:160
    36,875
    总访问量
  • 10
    原创
  • 776,014
    排名
  • 41
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2007-01-23
博客简介:

叶小乙研习社

博客描述:
关注ML&DL、Python及跨境电商领域学习及实践~
查看详细资料
个人成就
  • 获得45次点赞
  • 内容获得11次评论
  • 获得146次收藏
  • 代码片获得569次分享
创作历程
  • 1篇
    2024年
  • 1篇
    2022年
  • 14篇
    2020年
成就勋章
TA的专栏
  • Vue3
    1篇
  • 问题Bugs
    4篇
  • 算法与数学
    2篇
  • 推荐系统
  • 数据挖掘与分析
    7篇
  • NLP自然语言处理
    2篇
  • 架构设计
    1篇
  • python常用库
    3篇
  • 机器学习
    4篇
  • 爬虫应用
    1篇
  • 自动化测试
兴趣领域 设置
  • 人工智能
    opencv计算机视觉机器学习自然语言处理tensorflowpytorch图像处理数据分析
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

357人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

【无标题】

链接:https://huggingface.co/datasets/CaptionEmporium/anime-caption-danbooru-2021-sfw-5m-hq。原文链接:https://www.reddit.com/r/Open_Diffusion/comments/1dnnovb/dataset_of_datasets_ie_i_will_not_spam_the_group/。链接:https://huggingface.co/datasets/google/docci。
转载
发布博客 2024.08.02 ·
35 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

国内修改NPM镜像地址

解决方案npm config set registry http://registry.npm.taobao.org/将npm默认设置为淘宝镜像地址发布包当你想发布自己的包时,需要将地址修改回来npm config set registry https://registry.npmjs.org/
原创
发布博客 2022.04.18 ·
380 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Python pip3可替换的国内源

在使用pip3更新相关包时,总是连接不上或者下载速度特别慢,为了彻底解决这个问题,最好更换为国内源,大大地提高安装成功率和速度。国内可用的源如下:清华:https://pypi.tuna.tsinghua.edu.cn/simple中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/华中理工大学:http://pypi.hustunique.co...
原创
发布博客 2020.05.06 ·
733 阅读 ·
2 点赞 ·
0 评论 ·
3 收藏

Mac下Hadoop+ spark + Hbase + Kafka + zookeeper环境的搭建

安装必备的环境:操作系统:Mac 10.15.4软件包管理工具:brew依赖包JDK: 1.8.01、安装java版本Mac默认安装版本11.0,安装hadoop、hbase、kafka时都要求jdk1.8+, 建议首先安装java8,同时,可以系统保持2个版本参考:Mac上Homebrew安装多版本Java2、安装hadoop2.1 配置ssh配置ssh就是为了能够实现免密登录...
原创
发布博客 2020.05.06 ·
495 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

Mac上Homebrew安装多版本Java

一、安装jdk默认最新版本安装命令brew cask install java安装过程==> Satisfying dependencies==> Downloading https://download.java.net/java/GA/jdk11/13/GPL/openjdk-11.0.1_osx-x64_bin.tar.gz################# ...
转载
发布博客 2020.05.04 ·
2231 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

TF-IDF与余弦相似性的应用(三):自动摘要

有时候,很简单的数学方法,就可以完成很复杂的任务。这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。今天,依然继续这个主题。讨论如何通过词频,对文章进行自动摘要(Automatic summarization)。如果能从3000字的文章,提炼出150字的摘要,就可以为读者节省大量阅读时间。由人完成的摘要叫"...
转载
发布博客 2020.04.22 ·
117 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

TF-IDF与余弦相似性的应用(二):找出相似文章

为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来说明,什么是"余弦相似性"。为了简单起见,我们先从句子着手。句子A:我喜欢看电视,不喜欢看电影。句子B:我不喜欢看电视,也不喜欢看电影。请问怎样才能计算上面两句话的相似程度?基本思路是:如果这两句话的用词越相似,它们的内容就应该越相似。因此,可以从词频入手,计算它们的相似程度。第一...
转载
发布博客 2020.04.22 ·
205 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

TF-IDF与余弦相似性的应用(一):自动提取关键词

有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,普通人只用10分钟就可以理解,这就是我今天想要介绍的TF-IDF算法。让我们从一个...
转载
发布博客 2020.04.22 ·
154 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

sklearn进行人脸数据集加载fetch_lfw_people()报错

sklearn进行人脸数据集加载fetch_lfw_people()报错在使用sklearn自带人脸识别数据集进行训练,出现加载超时或失败from sklearn.datasets import fetch_lfw_people# 读入数据faces = fetch_lfw_people(min_faces_per_person=60)# 数据的规模print(faces.targe...
原创
发布博客 2020.04.20 ·
7268 阅读 ·
10 点赞 ·
11 评论 ·
19 收藏

更新packages失败raw.githubusercontent.com port 443

由于某些因素,导致GitHub的raw.githubusercontent.com域名解析被污染了。解决方法:通过修改hosts解决此问题。操作步骤:1、查询真实IP在https://www.ipaddress.com/查询raw.githubusercontent.com的真实IP。2、修改本地hosts文件sudo vi /etc/hosts添加ip对应199.232.2...
原创
发布博客 2020.04.17 ·
883 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

机器学习实践项目数据集资源下载

机器学习实践项目数据集资源下载超神经kaggle陆续继续收集,欢迎发现更好资源的朋友,留言告知~~
原创
发布博客 2020.04.16 ·
303 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Python+WordCloud绘制京东评论词云图实践

WordCloud绘制词云图实践案例作为文本分析,其中常用库jieba、wordcloud等用法演示,以作记录~~import osimport randomimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport jiebaimport jieba.analyseimport word...
原创
发布博客 2020.04.12 ·
991 阅读 ·
2 点赞 ·
0 评论 ·
10 收藏

Python文本分析-常用中文停用词表(Chinese Stop Words)

在做jieba中文分词处理,进行文本分析,必不可少的停用词处理,国内比较常用的中文停用词库,有以下几个:中文停用词表哈工大停用词表百度停用词表四川大学机器智能实验室停用词库而@elephantnose 对以上4个词库进行了合并去重,共计2311个,可在github直接下载使用~~链接:GitHub链接...
原创
发布博客 2020.04.12 ·
17416 阅读 ·
20 点赞 ·
0 评论 ·
46 收藏

Python+Selenium基础入门及实践

转载于:千夜 ( 链接:https://www.jianshu.com/p/1531e12f8852 )一、Selenium+Python环境搭建及配置1.1 selenium 介绍selenium 是一个 web 的自动化测试工具,不少学习功能自动化的同学开始首选 selenium ,因为它相比 QTP 有诸多有点:免费,也不用再为破解 QTP 而大伤脑筋小巧,对于不同的语言它只是一...
转载
发布博客 2020.04.10 ·
402 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

Pandas怎样找出最影响结果的哪些特征--SelectKBest

Pandas怎样找出最影响结果的特征当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。来简单看下SelectKBest的用法:SelectKBest模型原型class sklearn.feature_selection.SelectKBest(score_func=,k=10)参数score_func: 给出统计指标sklearn.feature_sele...
原创
发布博客 2020.03.31 ·
3394 阅读 ·
9 点赞 ·
0 评论 ·
53 收藏

Pandas分析某眼TOP100电影都来自于谁?

史上TOP100电影分析某眼TOP100电影数据分析准备数据网页抓取数据分析数据清洗和处理分析1:最耀眼的明星排行分析2:TOP100诞生于哪些年份?分析3:TOP100最受欢迎的题材分析4:TOP100都诞生哪些国家地区?分析5:TOP100 评分分布某眼TOP100电影数据分析2018年有一段时间稍微看了一段时间数据分析,稀里糊涂地做过一些demo,后来忙于创业项目的开发,风风火火地搞了1...
原创
发布博客 2020.03.30 ·
887 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏
加载更多