捉虫半仙
文章平均质量分 73
专注于大数据领域的C#网络爬虫技术,教你从小白成为捉虫专家,哈哈!一起加油奋斗吧,少年!
捉虫大仙里
80个产业链,8000个行业,6000个市场以及8000多万家企业数据,累积数据量超80亿,挖掘2亿全国企业关联上千维度数据的潜在价值,专注Windows捉虫一把梭。用计算机语言诠释现实世界,有什么好的建议可以给我留言,我会及时回复滴!
展开
-
优秀简历只需一篇就能打天下
废话不多说,直接上模板。目录个人基本情况求职意向自我评价主要工作经历主要项目经验教育经历专业技能 个人基本情况 姓名:xxx | 性别 | 1990.01 | 本科工作经验:9年 现居地:浙江杭州 联系电话:xxx 邮箱:xxx 求职意向 期望岗位:xxx开发、xxx 期望薪资:30K 开发语言:xxx...原创 2022-02-15 10:58:43 · 7360 阅读 · 0 评论 -
个人对爬虫框架的一些认知(四)
上章讲解了代理方面的使用知识点,本章给大家讲下需要用到账号的站点如何处理? 账号其实就是对应着一个Cookie字符串。有的站点不需要登录所谓的账号,但是在请求的时候Cookie设置那块也需要带上特定的值,这类型的站点我们也归到账号一类。我们为账号体系设置了一个标准的model如下截图,这里以mysql数据库为例:账号model model的关键用处在于...原创 2019-06-10 17:02:59 · 15266 阅读 · 0 评论 -
个人对爬虫框架的一些认知(三)
接上一篇通用框架的讲解之后,今天给大家讲解下爬虫框架关于代理IP使用这块的一些个人见解。 就我个人使用过的代理种类来看,从获取和使用的方式上,我把他们分为两类: 1.所有出去的代理IP都是用的同一个Ip和端口,不需要动态变化,例如:阿布云; 2.通过代理平台接口获取下来不同的Ip和端口进行配置,动态获取,动态使用,例如:站大爷; ...原创 2019-06-04 18:00:13 · 18576 阅读 · 0 评论 -
个人对爬虫框架的一些认知(二)
今天给大家传授一个爬虫框架任务源相对通用的模型: 下面这个我是以mysql数据库为例,以好315网-企业招商信息获取为一个演示效果,其他的数据库和站点按照这个思路走可以了。 大致解释下每个字段所代表的意思和为什么要这么做: 构建这个模型的核心思想就是如何做到请求链接的一个区别标志和去重的一个问题,目前能想到的比较简单实用的就是将url压缩成MD5值存储起来...原创 2019-05-30 09:40:54 · 22394 阅读 · 0 评论 -
关于Http请求GBK乱码转化的问题
class POST请求GBK乱码转化 { public void Start() { //将需要传入的中文参数转化为GBK格式 string INFO = System.Web.HttpUtility.UrlEncode("北京市国家税务局", Encoding.GetEncoding("GBK")); ...原创 2019-05-22 19:13:18 · 35889 阅读 · 0 评论 -
个人对爬虫框架的一些认知(一)
首先从任务的发起开始,我们画一个简单的流程图:爬虫运行简要示意图 一个优秀的爬虫框架,应当是要有个好的监控和异常处理记录,以及各爬虫运行在上面地方的一个简要记录信息。以企查查站点为例,一个爬虫的整体分层架构入下图所示:企查查爬虫架构图 每个爬虫以一个单独的文件目录存在,下一级分4层文件目录,Mark记录该爬虫的说明信息,怎么抓取的,有什么防...原创 2019-05-22 18:00:57 · 30535 阅读 · 0 评论 -
爬虫入门——记JS代码加载内容处理
网页内容一般就是指我们最终在网页上看到的内容,但是这个过程其实并不是网页的代码里面直接包含内容这么简单,所以对于很多新人而言,会遇到很多问题,比如:明明在页面用Chrome或者Firefox进行审查元素时能看到某个HTML标签下包含内容,但是抓取的时候为空。很多内容一定要在页面上点击某个按钮或者进行某个交互操作才能显示出来。 所以对于很多新人的做法是用某个...原创 2018-08-16 15:06:19 · 23508 阅读 · 0 评论 -
爬虫入门——目标站点分析
要抓指定网站的内容,首先要知道它对应的链接,这里推荐使用的Fiddler抓包软件分析,走HTTP的模式大体归纳为两种请求方式,GET和PSOT,单纯GET请求的,直接丢链接过去就能拿到数据,POST的有封装表单。手动在浏览器上刷一下目标站点的链接,用Fiddler监控找到对应的实际请求链接,以表单形式提交的链接,分析出每个参数所代表的意思,很快就能上手请求到对应数据。 另外需...原创 2018-08-16 12:00:23 · 22386 阅读 · 0 评论