网页蜘蛛的多 url 问题

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/rem2002/article/details/4324666

情况如下:

程序开始,发一个http请求,从回复的页面中将抽取得多个 url (例如10条),之后使用这些url再发请求,从10个回复的页面中抽取url(例如共100个),如此类推,内存中保存的url 不是将很大很大?!!!

 

解决办法:

一。转存到磁盘

当等待的url个数太多,把部分url写到文件中,当前内存只保留部分url,处理完这部分url马上释放内存,再读入保存在磁盘中的url到内存中。

展开阅读全文

多条件筛选下的Url处理问题

05-24

首先多条件筛选大家都知道,先上图:rn[img=https://img-bbs.csdn.net/upload/201505/24/1432479845_540600.png][/img]rn此图中有不少属性,属性对应一些值,熟悉cms的同学都知道,其实无论是属性还是属性值都应该能从后台动态添加的(这个问题不在此讨论),然后前台显示时需要进行点击筛选,筛选实现的功能无非是接收参数,然后拼接sql语句,然后我现在在这里想说的是拼接后sql处理的问题,一般来说sql形式多种多样,例:rn1.http://search.jd.com/search?keyword=%E8%A1%AC%E8%A1%AB%20%E5%A5%B3&enc=utf-8&qrst=1&ps=addr&rt=1&stop=1&sttr=1&ev=8635_106756%40&uc=0#selectrn最原始,最好处理,看去也大概知道是什么参数,但太长了,听说也不利于seo?rn2.http://www.51aspx.com/CodeList/1!0!0!0!0!0!0!0!0!-1i4rn应该是用了重写,地址变短,但仍然不够好看,并且无论有没有选那一项都好,也会带默认参数rn3.http://www.58dm.com/list/guochan-2015-rexuern大概也是用了重写,地址变短,一看就知道是 国产,2015,热血,相比上面2的地址处理来说我认为好些,这个在不选某项的情况下,不会再带多余的参数,选哪个带哪个。(我觉得这种地址最好了,这里-应该可以换成/)rn问题是这里,看两个对比地址:rnhttp://www.58dm.com/list/guochan-rexuernhttp://www.58dm.com/list/guochan-guoyurn两地址的区别在于最后那个参数,一个是剧情是热血,一个是配音是国语。我现在的重写如果用来这里判断(没用流行的重写组件,自己拦截了一下正则处理),单从拦截的数据来看,是无法知道rexue到底是剧情?还是配音?还是状态还是年份?的值?rn有人说接收参数之后,遍历分类,找到rexue此值对应的属性,再查找数据,这,到底不爽。。。。rn各位判断一下,还是说如果用rewrite组件就能识别到底这个参数是什么?rn帖子比较长,我描述得可能也不清楚,各位尽力耐心看完,有会的帮下,谢谢了。。。 论坛

问题

04-11

using System;rnusing System.Collections;rnusing System.ComponentModel;rnusing System.Data;rnusing System.Drawing;rnusing System.Web;rnusing System.Web.SessionState;rnusing System.Web.UI;rnusing System.Web.UI.WebControls;rnusing System.Web.UI.HtmlControls;rnusing System.Data.SqlClient;rnnamespace example04.ex04_02rnrn /// rn /// Ex04_03 的摘要说明。rn /// rn public class Ex04_03 : System.Web.UI.Pagern rn protected System.Web.UI.WebControls.Label lblOrig;rn protected System.Web.UI.WebControls.Label lblCurr;rn protected System.Web.UI.WebControls.Button btnOpen;rn protected System.Web.UI.WebControls.Button btnClose;rn protected SqlConnection myConn=new SqlConnection();rn rn private void Page_Load(object sender, System.EventArgs e)rn rn // 在此处放置用户代码以初始化页面rn string strConn="server=zjp;uid=sa;pwd=;database=Northwind";rn myConn.ConnectionString=strConn;rn rn rnrn #region Web Form Designer generated codern override protected void OnInit(EventArgs e)rn rn //rn // CODEGEN:该调用是 ASP.NET Web 窗体设计器所必需的。rn //rn InitializeComponent();rn base.OnInit(e);rn rn rn /// rn /// 设计器支持所需的方法 - 不要使用代码编辑器修改rn /// 此方法的内容。rn /// rn private void InitializeComponent()rn rn this.btnOpen.Click += new System.EventHandler(this.btnOpen_Click);rn this.btnClose.Click += new System.EventHandler(this.btnClose_Click);rn this.Load += new System.EventHandler(this.Page_Load);rnrn rn #endregionrn public void myConn_StateChang(object sender,StateChangeEventArgs e)rn rn lblOrig.Text=e.OriginalState.ToString();rn lblCurr.Text=e.CurrentState.ToString();rn rnrn private void btnOpen_Click(object sender, System.EventArgs e)rn rn myConn.Open();rn rnrn private void btnClose_Click(object sender, System.EventArgs e)rn rn myConn.Open();rn myConn.Close();rn rn rnrn生成并浏览时 出现错误;rn分析器错误 rn说明: 在分析向此请求提供服务所需资源时出错。请检查下列特定分析错误详细信息并适当地修改源文件。 rnrn分析器错误信息: ID“Ex04_03”已被其他控件使用。rnrn源错误: rnrnrn行 30: rn行 31: rn行 32: rn行 33: rn行 34: rn rn应该如何修改? 论坛

没有更多推荐了,返回首页