2018年08月_栗子ma

转载【产品】推荐系统的冷启动和评论推荐

【原文链接】http://www.woshipm.com/pd/818285.html 推荐系统的冷启动本篇文章是写给产品经理看的，所以说，我们不讨论算法，只说方法。冷启动在整个推荐系统中，是一个非常重要而又非常难的一件事情，推荐系统一般都需要在大量的数据基础过后才能比较准确的进行推荐，而一个新用户刚使用APP的冷启动可能直接决定着这个用户还会不会使用下去，所以冷启动是一件至关重要...

2018-08-27 18:19:40 363

转载【特征工程】机器学习中离散型特征的处理 —— 独热码 (one-hot)

【原文链接】https://www.cnblogs.com/daguankele/p/6595470.html 1、什么是独热码　　独热码，在英文文献中称做 one-hot code, 直观来说就是有多少个状态就有多少比特，而且只有一个比特为1，其他全为0的一种码制，更加详细参加one_hot code（维基百科）。在机器学习中对于离散型的分类型的数据，需要对其进行数字化比如说性别这一...

2018-08-15 14:14:45 686

原创【爬虫】Scrapy 中利用 XPath 丢弃所有跟 footer 相关的内容

【前言】利用 Scrapy 爬取网站文字的时候发现，footer 中的 Copyright 等文字会影响后续分词的效果，因此决定将网页的 HTML 中有关 footer 的内容都丢弃。以下是不排除 footer 中内容的时候拿到网页的所有文本内容：response.selector.xpath('//*[not(self::script or self::style or self::tit...

2018-08-03 16:11:55 967

翻译【XPath】语法、Axes、操作符

【原文链接】https://www.w3schools.com/xml/xpath_syntax.asp XPath SyntaxXPath uses path expressions to select nodes or node-sets in an XML document. The node is selected by following a path or steps....

2018-08-03 15:09:33 292

翻译【SEO】Meta Keywords: 是什么？怎么用？

【原文链接】https://www.wordstream.com/meta-keyword Meta Keywords are a specific type of meta tag that appear in the HTML code of a Web page and help tell search engines what the topic of the page is. M...

2018-08-02 16:51:37 4187

翻译【SEO】Meta Descriptions 对于 SEO 的重要性

【原文链接】https://www.wordstream.com/meta-description 元描述 (有时也称为元描述属性或标签) 是一种 HTML 元素。It describes and summarizes the contents of your page for the benefit of users and search engines. 虽然元数据对 SEO 排名不像...

2018-08-02 15:54:21 889

翻译【HTML】meta 标签

【原文链接】https://www.w3schools.com/tags/tag_meta.asp 【前言】最近把500个网页除了<script>和样式的标签以外的文本内容爬取下来，然后利用Hierarchical Clustering进行了分类。...结果就像skr粑粑一样（如下图），太不准了。利用jieba分词后，提取出来的文档集让人不禁感叹，介skr什么鬼（如下文）。领导...

2018-08-02 14:56:04 327

原创【爬虫】Scrapy 爬取excel中500个网址首页，使用Selenium模仿用户浏览器访问，将网页title、url、文本内容组成的item保存至json文件

创建含有网址首页的excel文件host_tag_网站名称_主域名_子域名.xlsx编辑读取excel文件的工具类项目FileUtils新建项目FileUtils编辑file_utils.py# -*- coding: utf-8 -*-"""Created on Thu Jul 26 10:42:49 2018@author: Administrator"...

2018-08-01 14:09:44 3631

sinat_40431164的博客