自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 资源 (13)
  • 收藏
  • 关注

原创 用户画像

坑爹,人头狗?自己动手试试吧,看是不是文艺青年。图片准备首先,你得有图片不过别太杂乱其实灰度要的是灰度图ps刚删不久,网上转的黑白,没有灰度的精髓。灰度反应了词的重要性,对应分词的频率,灰度丰富的效果更好。词典准备当然了,图片只是背景,关键的还是标签。需要关键字,还有权值。自己设定的太简单,所以一般用分词啊。先下一本红楼梦。为了避免麻烦,推荐先转成utf-8格式。获得字典from scipy.mi...

2018-03-28 23:26:15 224

原创 djaongo-url正则

path('index/',views.index,name='index')不同版本写法不同高版本中引入name和正则,容易出现两个问题1. 引入name没用正则,但是找不到把主站的url_patterns的大括号改成中括号urlpatterns = [ path('admin/', admin.site.urls), ]原来的urlpatterns = { path(...

2018-03-25 18:22:24 336

原创 django-数据同步

python manage.py makemigrations生成操作python manage.py migrate执行操作

2018-03-25 18:17:19 512

原创 scrapy-爬取流程

什么时候到pipeline,什么 时候到spider这个就不说了,这个是框架跳转到的流程关键是访问之前要登录怎么办,数据还要注入呢所以这次我们来关注一下网页下载前的流程start_urls这是个列表,里面就是爬取的链接了我们前面爬取就只是写了一个,但是其实可以写多个链接又是怎么访问的呢parse_start_url这东西你就可以手动提取链接返回了start_requests这东西你就得好好注意了从...

2018-03-11 19:07:42 778

原创 scrapy-crawl

之前的深入爬取都是手工找链接的很不符合框架的定义:准备怎么做,而不是怎么去做我们想要什么样的东西?说了摘菜(sspider)和炒菜(pipeline)其他的我们都不想参和的所以是我们忽略了一个东西crawl这东西就是自动跟进链接的创建方法之前说过有这几种类型的现在来指定模板创建一个内容创建完成是这个样的上面多了个rules,下面方法名称变了但是,我保证,下面方法不会再涉及链接的提取因为这个爬虫会自...

2018-03-11 18:17:53 3416

原创 scrapy-深入爬取

豆瓣电影250https://movie.douban.com/top250结构资源解析得到电影名称xpathresponse.xpath('//ol[@class="grid_view"]/li/div[@class="item"]/div[@class="info"]/div[@class="hd"]/a/span[@class="title"][1]/text()').extract()输出...

2018-03-11 17:44:02 556

原创 scrapy-中间件

我先在settings里面加点代理为什么要在这里面加?它运行的时候就会加载啊,而且可以导入直接用自己手写多麻烦,而且还得二次加载,你是蠢呢还是蠢呢名称随便定啊,反正它只是加载,增加啥都行代理注入看见没自动注入IP_POOL一般为了能够识别呢,都需要继承一个类通过process_reqeust来调整细节代理是proxy啊,这个不用说文件写在哪?反正settings配上就行,不做要求运行可以看到,连接...

2018-03-11 16:48:48 2802 3

原创 scrapy-pipelines

前面是调用scapy的本地化存储我们来自己写一发打开先初始化记得关闭存储使能右边是优先级,越小优先级越高运行结果结果不对经?那是必须的,因为我爬的有点频繁,被禁了啊不过写文件那是必须成功的,这个是之前写的被禁了怎么办?这不是爬了好多代理了么,用代理中间件,找替死鬼反正封禁的不会是我了其实也不一定要file,和spider不一定用xpath一样,你可以换方式mysql啥的都可以...

2018-03-11 16:26:48 271

原创 scrapy-spider

怎么摘菜?来看看先巧立名目(创建工程)工程目录材料清单我们就抓ip地址,端口,服务器地址,类型这四样于是items这样写是吧,只有名称不一样而已摘菜策略摘菜员摘菜嘛,先来个摘菜员有点骚的是,这个员工要你取名字(家丁嘛,华安啦9527都随意)而且他只摘指定的菜市场的菜(http://www.xicidaili.com/)不过名字就行了,菜市场三个字去掉就行了(http://),要不他听不懂的看吧,自...

2018-03-11 16:06:51 414

原创 scrapy-框架结构和爬取对象

如图一般创建好工程以后目录是这样的和框架图能够对应起来的好像就只有middlerwares和pipelines其实呢,的确有些东西你也是看不到的而且,我要的是葫芦,蚜虫什么的农夫会管理,也不用我们操心真想知道,要么从cpu开始学,要么先会用了后来慢慢加深要说的话,框架全靠scrapy引擎,这个就是老大了老大手下有四员大将:1. 调度器:任务之间统筹和调度2. 下载器:负责从网络上获取资源3. 爬虫...

2018-03-11 14:43:15 278

原创 scrapy-安装问题

pip install scrapy用的着说么?这能成功,如果你运气好(设备好)的话。那怎么装啊,我来总结一下三方库有哪些安装方式源码安装pip setup.py install安装有setuotool工具的话,这个就能用,setup.py文件就是python三方包的那个东西和 C的makefile玩意一样,这个包如果带有c文件或者库的话,都是会有啥链接,编译过程的于是有些呢,说gcc的问题,有的...

2018-03-11 00:30:19 242

原创 scrapy-命令

详细的我不说了,我也没本事说清楚。想知道的话,记住三点0. 都以scrapy开头1. 有两级,一级外层,二级针对项目2. 命令都可以带参数然后呢,命令行运行scrapy或者 scrapy命令就会出现了然后命令参数scrapy startproject -h这是没有工程的一级命令如果有工程的话,进入工程目录scrapy可以看到多了些命令,scrapy command -h依旧可以查看参数配置不过菜鸡...

2018-03-11 00:06:30 277

原创 pycharm指定编译器和安装模块

突然想写,但是不直道写什么,于是我来贴图了。指定编译器自己硬盘上指定位置就行了,这个就这样。安装包easy_install和pip都可以安装,但是装逼气氛浓厚,配置和使用问题多。对于windows的用户,那是相当的不友好。明明按照步骤来的,就是会错。不过现在不用担心了,windows嘛,干嘛要装逼呢,windows上图形界面才是王道好不好。反正我垃圾,研究没那么深,也用不着。还是刚才那里,点那个加...

2018-03-04 22:47:18 27056 8

原创 不入虎穴,焉得虎子

第一个线索哪来的就不用探究了,但是一个案件必定是由大量的证据才能定案的。每当我们的线人提供了一点点的小信息,我们都要自己分析,然后进行二次的甄选。这必定是不合格的警探---我要的只是葫芦。因为想要葫芦二区种植,但是种植的又不够全面,到头来除了证明自己SB以外没有其他。要葫芦?两个办法:1. 找人买2. 找人种找人买的话拿到的就只是成品,其中的猫腻也就不好把控了。招人种,不用自己动手,但是能够清楚细...

2018-03-04 21:56:58 330

latex文档

latex 排版学习笔记

2020-04-16

jd-gui反编译工具

反编译工具,通过class反编译查看java源代码,通过反编译确认逻辑,排查问题和读取现有class逻辑

2018-09-14

netty-api-chm

netty-api-chm文档,梳理netty结构,便于源码学习和使用

2018-09-13

5.6drools基础包

包含drools安装包和runTime,由于上传大小限制,其他额外包没有同意打包 但是学习足够了

2018-08-23

knn学习数据

csv格式irs数据 自己编程学习使用 其他排布格式需自己转换

2018-04-22

source练习资源

包含基本数据data.csv 结果逻辑result.dot 还有dot可视化工具graphiviz(安装,配置环境变量,按照命令执行即可)

2018-04-22

kibana安装及使用文档

kibana环境安装,elasticsearch对接,数据绘图,报警插件的安装,查询语句以及定时任务脚本设置

2018-03-01

elasticsearch安装文档

elasticsearch环境搭建,错误解决办法,配置和基本查询语句

2018-03-01

SGIP服务端

联通网关模拟服务,用来测试验证编写的客户端程序。。

2018-03-01

SGIP协议文档

联通封装的GSM文档,针对短信业务的网关之间以及SP之间的通信协议

2018-03-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除