自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

山阴少年

微信公众号: NLP奇幻之旅(微信号为:easy_web_scrape)

  • 博客(11)
  • 资源 (3)
  • 收藏
  • 关注

原创 Gradle学习笔记(1)创建简单的Java项目

  Gradle是一个基于Apache Ant和Apache Maven概念的项目自动化构建工具。它使用一种基于Groovy的特定领域语言(DSL)来声明项目设置,抛弃了基于XML的各种繁琐配置。当前其支持的语言限于Java、Groovy、Kotlin和Scala,主要面向Java应用。   本次分享将具体讲述如何利用Gradle来创建一个简单的Java项目。   首先我们新建一个文件夹jav...

2018-03-29 22:19:37 195

原创 Groovy学习笔记(1)读取CSV文件

  本篇分享讲展示如何在Groovy中读取CSV文件。   我们要读取的CSV文件foo.csv的内容如下:   Groovy代码如下://import packagesimport java.io.File // use @Grab() to download CSV package@Grab('org.apache.commons:commons-csv:1.2')...

2018-03-29 12:59:28 1913

原创 Josephus Problem的详细算法及其Python, Java语言的实现

  笔者昨天看电视,偶尔看到一集讲述古罗马人与犹太人的战争——马萨达战争,深为震撼,有兴趣的同学可以移步:http://finance.ifeng.com/a/20170627/15491157_0.shtml .   这不仅让笔者想起以前在学数据结构时碰到的Josephus问题:   据说著名犹太历史学家 Josephus有过以下的故事:在罗马人占领乔塔帕特后,39 个犹太人与Josephu...

2018-03-27 20:53:06 421

原创 利用shell实现WordCount

  Shell脚本编程是Linux系统最为核心的技术之一,它能够利用简单的命令来实现一些复杂的功能,同时,由于Linux提供了很多文本处理命令,如grep(grep family), tr, sed, awk等, 一旦熟练掌握这些命令,那么你在Linux系统中处理文本就会得心应手。   本文将展示如何利用Shell来实现WordCount功能。   首先先看wordcount.sh的代码,用来...

2018-03-26 11:41:05 1715

原创 Scrapy爬虫(8)scrapy-splash的入门

scrapy-splash的介绍  在前面的博客中,我们已经见识到了Scrapy的强大之处。但是,Scrapy也有其不足之处,即Scrapy没有JS engine, 因此它无法爬取JavaScript生成的动态网页,只能爬取静态网页,而在现代的网络世界中,大部分网页都会采用JavaScript来丰富网页的功能。所以,这无疑Scrapy的遗憾之处。   那么,我们还能愉快地使用Scrapy来爬...

2018-03-17 16:16:36 4106 2

原创 Scrapy爬虫(7)在Windows中安装及使用Scrapy

  本次分享将介绍Scrapy在Windows系统中的安装以及使用,主要解决的问题有:在Windows中安装Scrapy模块在IDE(PyCharm)中使用ScrapyScrapy导出的csv文件乱码  首先介绍如何在Windows中安装Scrapy模块。   在https://www.lfd.uci.edu/~gohlke/pythonlibs/网站中下载适合自己Python版...

2018-03-15 20:39:49 1222

原创 Scrapy爬虫(6)爬取银行理财产品并存入MongoDB(共12w+数据)

  本次Scrapy爬虫的目标是爬取“融360”网站上所有银行理财产品的信息,并存入MongoDB中。网页的截图如下,全部数据共12多万条。   我们不再过多介绍Scrapy的创建和运行,只给出相关的代码。关于Scrapy的创建和运行,有兴趣的读者可以参考:Scrapy爬虫(4)爬取豆瓣电影Top250图片。   修改items.py,代码如下,用来储存每个理财产品的相关信息,如产...

2018-03-15 16:35:38 1317

原创 Scrapy爬虫(5)爬取当当网图书畅销榜

  本次将会使用Scrapy来爬取当当网的图书畅销榜,其网页截图如下:  我们的爬虫将会把每本书的排名,书名,作者,出版社,价格以及评论数爬取出来,并保存为csv格式的文件。项目的具体创建就不再多讲,可以参考上一篇博客,我们只需要修改items.py文件,以及新建一个爬虫文件BookSpider.py.   items.py文件的代码如下,用来储存每本书的排名,书名,作者,出版社,价格以...

2018-03-14 22:31:43 4839

原创 Scrapy爬虫(4)爬取豆瓣电影Top250图片

  在用Python的urllib和BeautifulSoup写过了很多爬虫之后,本人决定尝试著名的Python爬虫框架——Scrapy.   本次分享将详细讲述如何利用Scrapy来下载豆瓣电影Top250, 主要解决的问题有:如何利用ImagesPipeline来下载图片如何对下载后的图片重命名,这是因为Scrapy默认用Hash值来保存文件,这并不是我们想要的  首先我们要爬...

2018-03-14 13:59:47 6584 2

原创 Node.js介绍

  Node.js是一个Javascript运行环境(runtime),发布于2009年5月,由Ryan Dahl开发,实质是对Chrome V8引擎进行了封装。Node.js对一些特殊用例进行优化,提供替代的API,使得V8在非浏览器环境下运行得更好。   V8引擎执行Javascript的速度非常快,性能非常好。Node.js是一个基于Chrome JavaScript运行时建立的平台, 用...

2018-03-05 21:55:55 273

原创 AutoIt介绍

AutoIt的下载网址: https://www.autoitscript.com/site/autoit/downloads/ AutoIt在线文档:http://www.autoit3.cn/Doc/AutoIt的优势:简单易懂的类BASIC 表达式模拟键盘,鼠标动作事件操作窗口与进程直接与窗口的”标准控件”交互(设置/获取文字,移动,关闭,等等)脚本可以编译为标准可执行文...

2018-03-05 21:07:54 3840

pytorch入门+神经网络模型+实战项目

本文档适用于PyTorch初学者。本文档介绍了PyTorch中的一些基本概念,介绍了线性归回模型、神经网络模型(MLP模型和CNN模型)及其在CV和NLP领域中的应用。 本文档结合笔者多年工作经验和博客文章,给出了丰富的实战项目例子,并附上Python实现代码,深入浅出,希望能给读者有所启发。

2023-03-18

Advanced model deployments with TensorFlow Serving Presentation.pdf

tensorflow/serving模型部署PDF

2021-02-25

Python爬虫系列之PhantomJS+Selenium+AutoIt.pptx

该PPT介绍了Python爬虫在爬取动态网页方面会用到的软件PhantomJS, Selenium, 以及AutoIt. 欢迎对爬虫有兴趣的童鞋进行下载哈,本人亲自制作的PPT~~

2018-03-04

Python 数据结构

Python 数据结构

2017-08-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除