捉虫李大仙

我爬你防,乐此不疲,唯有捉虫李大仙!

数据中台,未来20年的平台型创业机会

近期看了一篇文章(数据中台,下一个平台型创业机会 | 甲子光年),是关于数据中台的。本人也是头一次听数据中台这个概念,我个人的理解就是一个中转台一样的东西,我们称之为工具,一种什么样子的工具呢? 这个工具首先应该依附平台而存在,在这基础上,我们集成了各自解决问题的方法,简单理解就是数据接口...

2019-06-18 15:39:59

阅读数 1228

评论数 0

个人对爬虫框架的一些认知(四)

上章讲解了代理方面的使用知识点,本章给大家讲下需要用到账号的站点如何处理? 账号其实就是对应着一个Cookie字符串。有的站点不需要登录所谓的账号,但是在请求的时候Cookie设置那块也需要带上特定的值,这类型的站点我们也归到账号一类。我们为账号体系设置了一个标准的model如下截图,这里...

2019-06-10 17:02:59

阅读数 6082

评论数 0

个人对爬虫框架的一些认知(三)

接上一篇通用框架的讲解之后,今天给大家讲解下爬虫框架关于代理IP使用这块的一些个人见解。 就我个人使用过的代理种类来看,从获取和使用的方式上,我把他们分为两类: 1.所有出去的代理IP都是用的同一个Ip和端口,不需要动态变化,例如:阿布云; 2.通过代理平台接口获取下来不同...

2019-06-04 18:00:13

阅读数 9907

评论数 0

个人对爬虫框架的一些认知(二)

今天给大家传授一个爬虫框架任务源相对通用的模型: 下面这个我是以mysql数据库为例,以好315网-企业招商信息获取为一个演示效果,其他的数据库和站点按照这个思路走可以了。 大致解释下每个字段所代表的意思和为什么要这么做: 构建这个模型的核心思想就是如何做到请求链接的一个区别...

2019-05-30 09:40:54

阅读数 13893

评论数 0

个人对爬虫框架的一些认知(一)

首先从任务的发起开始,我们画一个简单的流程图: 爬虫运行简要示意图 一个优秀的爬虫框架,应当是要有个好的监控和异常处理记录,以及各爬虫运行在上面地方的一个简要记录信息。 以企查查站点为例,一个爬虫的整体分层架构入下图所示: 企查查爬虫架构图 每个爬虫以一个单独的文件目录存在,...

2019-05-22 18:00:57

阅读数 21277

评论数 0

粗放时代到规范时代,爬虫该何去何从?

粗放时代的特点表现在以下几个方面 粗放时代:无账户或者若账户(非强制注册或者简单方式可以注册) 商业模式:流量模式,通过流量来获取广告,通过广告盈利。 防御措施:弱,不影响正常使用的情况下放任。被识别后果弱。 代表站点:黄页类网站、企查查、某些信用网…… 规范时代的特点表现在以下几个方...

2019-06-27 10:55:17

阅读数 31

评论数 0

C# 简单实用的文件重命名方式

简单实用,两行代码解决问题。soeasy for you FileInfo fi = new FileInfo(fileName); fi.MoveTo(newFileName); //重命名文件 //当有可能出现重名文件时会报异常,需要捕获下。 //另外想到一个比较好的方法就是做下文件是否...

2019-06-24 15:15:06

阅读数 399

评论数 0

请求被中止,未能创建 SSL/TLS 安全通道

HTTP请求的时候遇到请求被中止,未能创建 SSL/TLS 安全通道,如何解决呢? 以C#为例,我贴下代码,大家一试便知效果如何咯! public bool Request_www_tamigos_com(out HttpWebResponse response) ...

2019-06-18 18:46:54

阅读数 972

评论数 0

最新2018我破解了天眼查+企查查+启信宝+企查猫和全国源站工商企业大数据爬虫系统

这些站点有一个共同的特点就是量大,各维度首页的请求基本上不需要登录账号就可以拿到,请求链接与的的Uid相关联。要拿到这些数据,第一步我们要拿到对方的的Uid,在没有捷径可走的情况下,需要我们准备大量的关键字去对方网站搜索,在不使用账号的情况下,每次最多拿到十条,这样子我们就需要优化我们的关键字,这...

2019-06-13 15:33:04

阅读数 59850

评论数 9

最新2019我破解了天眼查+企查查+启信宝+企查猫和全国源站工商企业大数据爬虫系统

这些站点有一个共同的特点就是量大,各维度首页的请求基本上不需要登录账号就可以拿到,请求链接与Uid相关联。要拿到这些数据,第一步我们要拿到对方的Uid,在没有捷径可走的情况下,我们需要准备大量的关键字去对方网站搜索,在不使用账号的情况下,每次最多拿到十条,这样子我们就需要优化我们的关键字,这些关键...

2019-06-13 15:32:54

阅读数 65482

评论数 0

米扑代理:爬虫代理IP哪家好呢

原文链接:https://blog.mimvp.com/article/18481.html 在知乎上,看到一篇写关于代理IP的文章,总结的比较全面。 本文对其做了许多补充,并且修正了原文中的一些过时的错误, 先分享出来,方便读者在选择代理IP时,仅做参考。 本文原文,请见米博客扑 米扑代...

2019-06-13 15:32:42

阅读数 11793

评论数 0

类似合俊大数据营销CRM系统软件的出路何在?

今天跟大伙聊下精准营销这档子的事,自从我发了(最新2019我破解了天眼查+企查查+启信宝+企查猫和全国源站工商企业大数据爬虫系统)那篇文章之后,就时不时有人加我好友,找我要数据,本人是谢绝数据买卖交易的,技术交流我是很欢迎各位的。市面上其实有很多这种营销软件的,可以多关注关注,需求最多的无非就是精...

2019-06-13 15:32:20

阅读数 2656

评论数 0

记录软件帮助很大---写给2018年1月的自己

原文链接:https://blog.csdn.net/PbGc396Dwxjb77F2je/article/details/79245939 有时候我回头会问自己,为什么能坚持一些事情,比如读书,跑步,记录软件功不可没。人都会有惰性,让外力来帮助自己坚持更容易。介绍几款现在常用的记录软件。 ...

2019-06-13 15:09:21

阅读数 2658

评论数 0

WinForm在Datagridview控件显示Datatable数据

这期给大家简单讲解下Datagridview控件的一个使用,链接数据库直接导入数据也是可以的,下面放下C#的代码: private void skinButton1_Click(object sender, EventArgs e) { skinDataGridView1.ReadOn...

2019-05-23 16:16:08

阅读数 19848

评论数 0

C#正则表达式参考

技术分享,侵删。原文链接:https://blog.csdn.net/wuzhanwen/article/details/79643362 正则表达式就是由普通字符(例如字符a 到 z)以及特殊字符(称为元字符)组成的文字模式。该模式描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一...

2019-05-23 11:02:39

阅读数 20176

评论数 0

关于Http请求GBK乱码转化的问题

class POST请求GBK乱码转化 { public void Start() { //将需要传入的中文参数转化为GBK格式 string INFO = System.Web.HttpUtility.Url...

2019-05-22 19:13:18

阅读数 21044

评论数 0

C# WinForm开发系列 - CheckBox/Button/Label/ProgressBar

包含自定义颜色显示的CheckBox,水晶效果按钮,透明圆角Label,Vista效果的ProgressBar等控件(文章及相关代码搜集自网络,仅供参考学习,版权属于原作者!). 1.自定义颜色显示的CheckBoxcoloredcheckcontrols.zip 2.逼真的仿Vista效果...

2019-05-17 17:43:30

阅读数 26272

评论数 0

CSS介绍

技术分享,侵删。 原文链接:https://www.cnblogs.com/yuanchenqi/articles/5976755.html

2019-05-05 18:03:28

阅读数 26530

评论数 0

HTML介绍

技术分享,侵删。 原文链接:https://www.cnblogs.com/yuanchenqi/articles/5976755.html HTML介绍 前端概述 import socket def main(): sock = socket.socket(soc...

2019-05-05 18:00:56

阅读数 26637

评论数 0

Aspose.Cells中文版文档

Aspose.Cells相应操作 1,上传 1.1Workbook WorkbookworkBook=newWorkbook(); 属性: 名称 值类型 说明 ...

2019-04-26 17:29:01

阅读数 26366

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭