- 博客(88)
- 收藏
- 关注
原创 scrapy百度股票个股爬取
Scrapy的循序渐进的实现 之前有学习的scrapy对股票数据的爬取是一个浅显的实现,没有应用到反爬虫和item类型的实现。scarpy的强大需要不断的摸索,所以继续自主的实现scrapy的各种功能是十分必要的。 这里的实现学习没有对反爬虫机制,对动态页面的爬取以及多网站页面进行爬取,也没有使用item loader等一些高级用法,下一步学习scrapy-splash 由于爬虫的输...
2018-04-08 22:30:25
967
原创 死走逃亡伤?不存在的。
放手也是选择的勇气:2018.3.31退队 2018年愚人节的前一天,天梯赛完赛后,终究还是做出了决定,离开了HDU的集训队。回想一年半的训练,从热情如火到兴趣转移,很难说是成功还是失败。从acm大佬们的角度来说那绝对是失败的很彻底,但是从我个人来说却是成败难判,明知无力回天且心投他好还苦苦追寻的前途是很少有光明的。 到底作为一个acm炮灰,在这群英荟萃的领域里算是知道了什么叫人外有人,山...
2018-04-01 19:50:07
1411
原创 股票信息爬取scrapy版
scrapy的粗略实现 在后续学习中才发现这个案例是非常不严谨和粗浅的,但是作为初步入门时的scrapy实现学习实例还是非常好的。特别是让我对scrapy的具体框架有了个大概的了解。 本实例用到的url如下url = "http://quote.eastmoney.com/stocklist.html"url = "https://gupiao.baidu.com/stock/"...
2018-03-26 16:55:37
885
原创 scrapy之初见
scrapy之初见 scrapy号称是当今最为强大的爬虫框架,是所有有兴趣接触爬虫学习同学绕不开的强大神器5 + 2模块 scrapy爬虫组成一共有7个部分Engine:不需要用户修改控制所有模块之间的数据流 根据条件触发时间 Downloader:不需要用户修改根据用户请求下载网页 Scheduler:不需要用户修改对所有爬取请求进...
2018-03-24 16:42:31
356
原创 淘宝比价定向爬虫
淘宝比价定向爬虫目标:获取淘宝搜索页面信息,获得商品名称和价格 理解:淘宝搜索的接口,翻页的处理步骤:步骤一:提交商品搜索请求,循环获取页面 步骤二:对于每一个页面,提取商品名称和价格信息 步骤三:将信息输出到屏幕上import requestsimport re#可以看到页面里面是脚本不能用bsdef getHTMLText(url): try:...
2018-03-21 17:03:06
1333
原创 股票数据定向爬虫
股票数据定向爬虫目标:获取上交所和深交所所有股票的名称和交易信息 输出:保存到文件中技术路线:requests-bs4-re用到的url: 新浪股票:http://finance.sina.com.cn/stock/ 百度股票:https://gupiao.baidu.com/stock/ 东方财富网:http://www.eastmoney.com/步骤:...
2018-03-21 17:00:10
437
原创 定向爬虫实例之中国大学排名定向爬虫
中国大学排名定向爬虫 定向爬虫指的是只针对所给的url的页面爬取,不扩展爬取的爬虫。给的例子的网页采用静态页面的方式,是非常好的学习例子。 本次实例的要求: 输入:大学排名url 输出:大学排名信息的屏幕输出(排名,大学名称,总分)url = "http://www.zuihaodaxue.cn/zuihaodaxuepaiming2018.html"import...
2018-03-19 16:58:56
555
原创 python爬虫学习之re正则表达式
正则表达式包re regular expression = regex = re 正则表达式是通用的字符串表达框架,是判断字符串的特征所属的方法,这种方法几乎在所有的计算机相关领域都有所涉及。那么,爬虫这一对数据的提取的技术也不例外。学好正则表达式是所有计算机人的基本功。 正则表达式的编译:将符合正则表达式语法的字符串转换成正则表达式特征。 正则表达式的常用操作符: 1. .表示...
2018-03-14 15:32:29
479
原创 oracle系统全局区和程序全局区的基本文件学习
对配置的基础查询SGA是什么,由哪些部分组成,查询test数据库SGA及各组成部分的大小? sga是系统全局区 sga由库缓存,数据字典缓存,数据缓存区,重做日志缓存区,大池,java池,流池,结果缓存等组成 查询如下: 查询test数据库的物理存储文件基本信息(包含文件名、扩展名和位置信息等)? Oracle数据库日志模式有哪两种,分别有什么含义,查询出t...
2018-03-13 16:16:03
729
原创 UEFI - windows10 + ubuntu16.04双系统的安装
unbuntu的搭建 首先是在win10已经搭载完成的情况下再进行Unbuntu的安装,首先可以看以下这个博客的前半段完成对ubuntu的准备阶段:http://blog.csdn.net/zr459927180/article/details/51627910 包括对u盘的刻录,对磁盘的分区,对快速启动选项的禁用等步骤。 然后重点来了,由于现在许多电脑是用的UEFI的启动方式和双显卡的...
2018-03-10 14:51:47
456
原创 python爬虫学习
爬数据,爬数据 这是在新的互联网时代必然的要求,搞定从爬虫到数据分析再到人工智能一整套体系已经似乎是每个程序员的必备知识了。于是乎,就先来学习下爬虫的应用 我学习的是中国大学MOOC上北理嵩天教授的视频课程,博客仅为记录为日后参考。一:requests中基本功能的了解 1.用anconda安装requests:conda install requests 2.在j...
2018-03-07 18:08:49
449
原创 oracle数据库配置学习
oracle 11g的配置学习 终于进入了oracle的学习课程,而第一步就是对oracle的dbms + db + instance模式的理解和配置 在安装完了基本dbms后(傻瓜式安装),需要创建db以及网络配置管理。(由于是最基本的配置所以当前不进行网络配置) 一:使用dbca创建数据库 在安装完dbms后会自动带有oracle数据库配置向导功能,可以在开始菜单->...
2018-03-06 22:19:39
326
原创 2017 ACM/ICPC Asia Regional Qingdao Online
2017 ACM/ICPC Asia Regional Qingdao Online
2017-09-19 14:56:46
718
原创 2017 ACMICPC Asia Regional Shenyang Online
2017 ACM/ICPC Asia Regional Shenyang Online题目
2017-09-19 12:21:45
773
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅