HTML
栗子ma
这个作者很懒,什么都没留下…
展开
-
【HTML】meta 标签
【原文链接】https://www.w3schools.com/tags/tag_meta.asp 【前言】最近把500个网页除了<script>和样式的标签以外的文本内容爬取下来,然后利用Hierarchical Clustering进行了分类。...结果就像skr粑粑一样(如下图),太不准了。利用jieba分词后,提取出来的文档集让人不禁感叹,介skr什么鬼(如下文)。领导...翻译 2018-08-02 14:56:04 · 302 阅读 · 0 评论 -
【SEO】Meta Descriptions 对于 SEO 的重要性
【原文链接】https://www.wordstream.com/meta-description 元描述 (有时也称为元描述属性或标签) 是一种 HTML 元素。It describes and summarizes the contents of your page for the benefit of users and search engines. 虽然元数据对 SEO 排名不像...翻译 2018-08-02 15:54:21 · 852 阅读 · 0 评论 -
【SEO】Meta Keywords: 是什么?怎么用?
【原文链接】https://www.wordstream.com/meta-keyword Meta Keywords are a specific type of meta tag that appear in the HTML code of a Web page and help tell search engines what the topic of the page is. M...翻译 2018-08-02 16:51:37 · 4163 阅读 · 0 评论 -
【爬虫】Scrapy 中利用 XPath 丢弃所有跟 footer 相关的内容
【前言】利用 Scrapy 爬取网站文字的时候发现,footer 中的 Copyright 等文字会影响后续分词的效果,因此决定将网页的 HTML 中有关 footer 的内容都丢弃。以下是不排除 footer 中内容的时候拿到网页的所有文本内容:response.selector.xpath('//*[not(self::script or self::style or self::tit...原创 2018-08-03 16:11:55 · 936 阅读 · 0 评论