栗子ma
码龄7年
关注
提问 私信
  • 博客:174,471
    174,471
    总访问量
  • 13
    原创
  • 1,563,976
    排名
  • 45
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2017-09-28
博客简介:

sinat_40431164的博客

查看详细资料
个人成就
  • 获得60次点赞
  • 内容获得22次评论
  • 获得419次收藏
  • 代码片获得367次分享
创作历程
  • 1篇
    2019年
  • 52篇
    2018年
成就勋章
TA的专栏
  • 用户画像
    3篇
  • url
    1篇
  • Hive
    2篇
  • Maven
    2篇
  • Hadoop
    1篇
  • 运营商数据
    1篇
  • Spark
    5篇
  • 推荐系统
    2篇
  • ETL
    2篇
  • Linux
    1篇
  • 系统聚类
  • 层次聚类
    3篇
  • NLP
    5篇
  • 文本聚类
    2篇
  • Tf-idf
    4篇
  • 分词
    3篇
  • Python
    14篇
  • Matplotlib
    2篇
  • Scrapy
    13篇
  • 爬虫
    14篇
  • Selenium
    4篇
  • 基础知识
    1篇
  • HTML
    4篇
  • SEO
    2篇
  • XPath
    2篇
  • 特征工程
    1篇
  • 机器学习
    1篇
  • 产品
    1篇
  • Shell
  • SQL
    1篇
  • Sqoop
    1篇
  • 网络营销
    1篇
  • MySQL
    2篇
  • CDH
    3篇
  • Oozie
    4篇
  • Hue
    4篇
  • Coordinator
    1篇
  • Workflow
    1篇
  • Flume
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

349人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

【maven】使用eclipse自带的Maven插件,修改repository的默认位置

【原文链接】https://blog.csdn.net/qq_20565303/article/details/60480247 1、查看相关是否可建Maven工程:将eclipse打开后新建工程在other里面可以找到maven2、查看默认Maven插件的配置:1)我们可以可以点击Window下的Preferences,然后找到Maven,点击installations,可以...
原创
发布博客 2019.02.25 ·
2289 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

【Flume】通过Hue提交Oozie SSH Action用命令启动Flume脚本报错Unable to find java executable.

【背景】在配置好Flume后,在控制台通过flume-ng agent --conf /* --conf-file /* --name agent Dflume.root.logger=INFO,console命令启动Flume Agent没有问题。但是将这个命令通过Oozie SSH Action运行的时候却发现,Sink的目录没有结果文件,且ps -ef | grep flume也没有Flum...
原创
发布博客 2018.12.13 ·
1583 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

【Oozie】SSH Workflow报错之Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password).

【问题】添加workflow,拖拽一个ssh,user and host填写USER@HOST,ssh command填写一个最简单的ll命令,保存,submit,报错:Caused by: java.io.IOException: Not able to perform operation [ssh -o PasswordAuthentication=no -o KbdInteractiveD...
原创
发布博客 2018.12.12 ·
2971 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

【Oozie】解决通过Hue界面提交Oozie Workflow和Coordinator时区问题的三个步骤

【问题一】Hue界面中显示提交Coordinator和Workflow的时间和真正的时间不匹配【背景】提交Coordinator的时候是下午五点,但是界面上显示的是凌晨1点,判断是时区问题【解决】打开Cloudera Manager的页面,打开Hue服务的页面,点击配置,搜索time会出现timezone的配置,将洛杉矶时区改成Asia/Shanghai【注意】没有Asia/Beiji...
原创
发布博客 2018.12.11 ·
1583 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

【CDH】Error: JAVA_HOME is not set and could not be found.

错误一:hdfs dfs -mkdir -p /flume/mysqlPermission denied: user=root, access=WRITE, inode="/":hdfs:supergroup:drwxr-xr-x这些类似的权限问题都属于同类问题,他是我说我们的执行Hadoop命令的用户没有,执行权限。刚开始我想解决问题的思路是,将当前用户授权。(这种想法是不正确的,不...
原创
发布博客 2018.12.06 ·
3178 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

【Oozie】CDH是如何通过Hue提交Oozie定时任务的?

【原文链接】https://www.cnblogs.com/mr-ivan/p/6593550.html 提交oozie定时作业 1、进入hue界面,点击workflows工作流,编辑workflows。 2、点击create创建工作流。 3、本文以hive2作业sql任务为例,拖拽hive2到action区域。 4、例子是为车次表每天定时添加指定分...
转载
发布博客 2018.12.05 ·
712 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

【MySQL】CentOS7安装MySQL7并更改初始化密码

1、官方安装文档http://dev.mysql.com/doc/mysql-yum-repo-quick-guide/en/2、下载 Mysql yum包http://dev.mysql.com/downloads/repo/yum/下载到本地再上传到服务器,或者使用wget 直接下载wget http://repo.mysql.com/mysql57-communit...
转载
发布博客 2018.12.05 ·
496 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

【MySQL】Error “No package mysql-server available” while Installing mysql

【原文链接】https://www.techietown.info/2017/07/error-no-package-mysql-server-available-while-installing-mysql-server/Mysql is a popular open source relational database management system (RDBMS). It is wi...
翻译
发布博客 2018.12.05 ·
448 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【网络营销】CPA、CPS、CPM、CPT、CPC 是什么

【原文链接】https://www.a-edm.com/cpa.html 网络营销之所以越来越受到重视一个主要的原因就是因为“精准”。相比较传统媒体的陈旧广告形式,网络营销能为广告主带来更为确切的效果与回报,更有传统媒体所没有的即时互动性。很多企业借助于精准的网络营销成为人尽皆知的知名品牌。众多的成功案例吸引着更多的企业计划投入到网络营销中的大潮中来。那么我们在做网络营销前应该要了解哪些基...
转载
发布博客 2018.11.01 ·
3323 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

【Sqoop】Export data into RDBMS using Sqoop 及其调优

【原文链接】https://hadoopjournal.wordpress.com/2017/08/15/export-data-using-sqoop/ We can export data from HDFS into an RDBMS table using the Sqoop export tool. The target table must already exist in t...
翻译
发布博客 2018.10.31 ·
878 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【SQL】SELECT col, COUNT(DISTINCT other_col) FROM tab GROUP BY col的两种写法

To count distinct values inside of a GROUP BY, use the following.SELECT col, COUNT(DISTINCT other_col) FROM tab GROUP BY colThe same result can be achieved without using the DISTINCT keyword, as ...
翻译
发布博客 2018.10.26 ·
579 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【Shell】别把&和nohup混为一谈, 根本不是同一个东西好不好 ------ 聊聊./a.out & , nohut ./a.out , nohup ./a.out &的区别

【原文链接】https://blog.csdn.net/stpeace/article/details/76389073 在第一家公司工作的时候, 我认识了&,在第二家公司工作的时候, 我认识了nohup, 这就是渊源。 随后, 我就一直糊涂用他们, 但并不懂这两个东西。 网上很多地方是乱扯, 瞎复制, 为什么不自己实践一下呢? 看个小程序:int main (){ in...
转载
发布博客 2018.09.25 ·
337 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【产品】推荐系统的冷启动和评论推荐

【原文链接】http://www.woshipm.com/pd/818285.html 推荐系统的冷启动本篇文章是写给产品经理看的,所以说,我们不讨论算法,只说方法。冷启动在整个推荐系统中,是一个非常重要而又非常难的一件事情,推荐系统一般都需要在大量的数据基础过后才能比较准确的进行推荐,而一个新用户刚使用APP的冷启动可能直接决定着这个用户还会不会使用下去,所以冷启动是一件至关重要...
转载
发布博客 2018.08.27 ·
376 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

【特征工程】机器学习中离散型特征的处理 —— 独热码 (one-hot)

【原文链接】https://www.cnblogs.com/daguankele/p/6595470.html 1、什么是独热码  独热码,在英文文献中称做 one-hot code, 直观来说就是有多少个状态就有多少比特,而且只有一个比特为1,其他全为0的一种码制,更加详细参加one_hot code(维基百科)。在机器学习中对于离散型的分类型的数据,需要对其进行数字化比如说性别这一...
转载
发布博客 2018.08.15 ·
703 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

【爬虫】Scrapy 中利用 XPath 丢弃所有跟 footer 相关的内容

【前言】利用 Scrapy 爬取网站文字的时候发现,footer 中的 Copyright 等文字会影响后续分词的效果,因此决定将网页的 HTML 中有关 footer 的内容都丢弃。以下是不排除 footer 中内容的时候拿到网页的所有文本内容:response.selector.xpath('//*[not(self::script or self::style or self::tit...
原创
发布博客 2018.08.03 ·
978 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

【XPath】语法、Axes、操作符

【原文链接】https://www.w3schools.com/xml/xpath_syntax.asp XPath SyntaxXPath uses path expressions to select nodes or node-sets in an XML document. The node is selected by following a path or steps....
翻译
发布博客 2018.08.03 ·
302 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【SEO】Meta Keywords: 是什么?怎么用?

【原文链接】https://www.wordstream.com/meta-keyword Meta Keywords are a specific type of meta tag that appear in the HTML code of a Web page and help tell search engines what the topic of the page is. M...
翻译
发布博客 2018.08.02 ·
4227 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【SEO】Meta Descriptions 对于 SEO 的重要性

【原文链接】https://www.wordstream.com/meta-description 元描述 (有时也称为元描述属性或标签) 是一种 HTML 元素。It describes and summarizes the contents of your page for the benefit of users and search engines. 虽然元数据对 SEO 排名不像...
翻译
发布博客 2018.08.02 ·
920 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【HTML】meta 标签

【原文链接】https://www.w3schools.com/tags/tag_meta.asp 【前言】最近把500个网页除了<script>和样式的标签以外的文本内容爬取下来,然后利用Hierarchical Clustering进行了分类。...结果就像skr粑粑一样(如下图),太不准了。利用jieba分词后,提取出来的文档集让人不禁感叹,介skr什么鬼(如下文)。领导...
翻译
发布博客 2018.08.02 ·
341 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【爬虫】Scrapy 爬取excel中500个网址首页,使用Selenium模仿用户浏览器访问,将网页title、url、文本内容组成的item保存至json文件

创建含有网址首页的excel文件host_tag_网站名称_主域名_子域名.xlsx编辑读取excel文件的工具类项目FileUtils新建项目FileUtils编辑file_utils.py# -*- coding: utf-8 -*-"""Created on Thu Jul 26 10:42:49 2018@author: Administrator"...
原创
发布博客 2018.08.01 ·
3645 阅读 ·
1 点赞 ·
0 评论 ·
8 收藏
加载更多