抓取网络数据_设计
文章平均质量分 61
程序员敏敏
程序分享
展开
-
删除数据库数据删不掉,提示空间已满
1.数据量大,删数据时候报日志空间不足,进服务器上查询是d盘空间只有9.95mb,2.删除日志,之后d盘空间变大数据库 'Crawler' 的事务日志已满。若要查明无法重用日志中的空间的原因,请参阅 sys.databases 中的 log_reuse_wait_desc 列。 数据库历史数据清空数据库日志太大,d盘空间太小,(备注不同城市使用不一样的是数据库,但是表名字是原创 2014-02-10 13:18:03 · 3550 阅读 · 1 评论 -
MemcachedClient
using System;using System.Collections.Generic;using System.Linq;using System.Web;using System.Web.Mvc;using Centa.CorporateCulture.BusinessService;using Centa.CorporateCulture.Model;using原创 2014-01-16 16:56:26 · 2686 阅读 · 0 评论 -
抓取数据需要注意什么
1.百度屏蔽你的ip地址,可以使用IP代理,模拟浏览器进行解决3.抓取网站的黑名单,白名单4.在百度里面搜索数据如果只有一页只解析一页便好,如果多页,需要解析不同页面的数据转化为dom5.抓取数据需要设时间间隔进行抓取6.需要建任务计划程序,进行部署exe文件难点:1.解析两个帖子的相似度,自动识别帖子是不是一个帖子2.将抓取数据放到队列里面原创 2014-01-08 18:22:18 · 1307 阅读 · 0 评论 -
将URL 转化为16进制编码
摘要:抓取数据的时候,为了避免数据重复,比较每个url是否一样,这个时候需要反复查询数据库,这个时候将url编码存入数据库,然后数据库建立索引,每次向数据库添加数据的时候,根据方法GetEncode() 将url转化为32为的字符串,然后根据这个字符串去数据库查询数据,判断有无url 1.先base64 2.MD5散列 3.将内容转化为16进制原创 2014-01-08 17:54:04 · 8074 阅读 · 0 评论 -
SQL Server阻止了对组件xp_cmdshell过程的解决方案
将数据源写到svc文件时候报错:SQL Server 阻止了对组件 'xp_cmdshell' 的 过程 'sys.xp_cmdshell' 的访问,因为此组件已作为此服务器安全配置的一部分而被关闭。系统管理员可以通过使用 sp_configure 启用 'xp_cmdshell'。有关启用 'xp_cmdshell' 的详细信息,请参阅 SQL Server 联机丛书中的 "外围应用配置器"转载 2014-02-11 10:33:23 · 1464 阅读 · 1 评论 -
大数据处理随笔
1.当数据库数据超过1000万的时候超时是正常的2.今天遇到数据库时间格式2014021000 当然是int类型哦。。。。原创 2014-02-10 11:14:47 · 782 阅读 · 0 评论 -
关与如何补数据?
场景:从互联网上抓数据,当数据丢失的时候,如何去补抓数据,当然这个最初的设计有很大关系为什么分20小时内与外?我们抓取数据的时候,不可能把所有数据持续保存,这样的话我们检索数据的时候肯定会卡的死掉,所以,超过20小时外的数据,我们会持续的干掉,在抓取数据库只存20小时内数据。 正常的补数据:补最近20小时内的数据正常情况下,我们的计划任务每4小时补一次数据,这样的补数据原创 2014-02-10 10:10:18 · 1375 阅读 · 1 评论