2013.5打基础

最新推荐文章于 2023-12-03 23:03:23 发布

置顶 likika2012

最新推荐文章于 2023-12-03 23:03:23 发布

阅读量1.2k

点赞数

本文链接：https://blog.csdn.net/likika2012/article/details/8978450

版权

1. 我们会发现src目录下有错误存在，这是因为尽管该项目的lib目录下有Jar包，但是没有将其加入到ClassPath变量中。下面来解决这个问题。

在Nutch1.1目录上单击右键→Build Path→Configure Build Path…将打开如下所示的对话框。在Libraries选项卡里，点击Add JARs…按钮，

同理，虽然conf目录下已经有配置文件了，但Java虚拟机仍不能识别它们，因为它们也没有加入到ClassPath变量中。下面我们来将其加入。

在conf目录上单击右键→Build Path→Use as Source Folder。然后我们会发现conf目录变成了一个“Source Folder”，这样conf目录下的配置文件就被中加入到ClassPath变量中了。

2. 成功正则：+^http://club\.mil\.news\.sina\.com\.cn/.*\.html www.sina.com/thread-*.html的正则表达式写成www\.sina\.com\/thread-.*\.html是报错的知道错在哪儿了，刚开始的深度没有thread-603294-3-1.html的文件

3.利用目录寻找网上资源第1篇自己动手抓取数据第1章全面剖析网络爬虫 1.1 抓取网页 1.1.1 深入理解url 1.1.2通过指定的url抓取网页内容 1.1.3 java网页抓取示例 1.1.4 处理http状态码 1.2 宽度优先爬虫和带偏好的爬虫1.2.1 图的宽度优先遍历 1.2.2 宽度优先遍历互联网 1.2.3 java宽度优先爬虫示例 1.2.4 带偏好的爬虫1.2.5 java带偏好的爬虫示例 1.3 设计爬虫队列 1.3.1 爬虫队列 1.3.2 使用berkeley db构建爬虫队列1.3.3 使用berkeley db构建爬虫队列示例 1.3.4 使用布隆过滤器构建visited表 1.3.5详解heritrix爬虫队列 1.4 设计爬虫架构 .1.4.1 爬虫架构 1.4.2 设计并行爬虫架构 1.4.3详解heritrix爬虫架构 1.5 使用多线程技术提升爬虫性能 1.5.1 详解java多线程 1.5.2 爬虫中的多线程1.5.3 一个简单的多线程爬虫实现 1.5.4 详解heritrix多线程结构 1.6 本章小结第2章分布式爬虫 2.1设计分布式爬虫 2.1.1 分布式与云计算 2.1.2 分布式与云计算技术在爬虫中的应用——浅析google的云计算架构 2.2分布式存储 2.2.1 从ralation_db到key／value存储 2.2.2 consistent hash算法 2.2.3consistent hash代码实现 2.3 google的成功之道——gfs 2.3.1 gfs详解 2.3.2开源gfs——hdfs 2.4 google网页存储秘诀——bigtable 2.4.1 详解bigtable 2.4.2开源bigtable——hbase 2.5 google的成功之道——mapreduce算法 2.5.1 详解mapreduce算法2.5.2 mapreduce容错处理 2.5.3 mapreduce实现架构 2.5.4 hadoop中的mapreduce简介2.5.5 wordcount例子的实现 2.6 nutch中的分布式 2.6.1 nutch爬虫详解 2.6.2nutch中的分布式 2.7 本章小结第3章爬虫的“方方面面” 3.1 爬虫中的“黑洞” 3.2 限定爬虫和主题爬虫 3.2.1理解主题爬虫 3.2.2 java主题爬虫 3.2.3 理解限定爬虫 3.2.4 java限定爬虫示例 3.3 有“道德”的爬虫3.4 木章小结第2篇自己动手抽取web内容第4章 “处理”html页面 4.1 征服正则表达式 4.1.1 学习正则表达式4.1.2 java正则表达式 4.2 抽取html正文 4.2.1 了解htmlparser 4.2.2 使用正则表达式抽取示例4.3 抽取正文 4.4 从javascript中抽取信息 4.4.1 javascript抽取方法 4.4.2javascript抽取示例 4.5本章小结第5章非html正文抽取 5.1 抽取pdf文件 5.1.1 学习pdfbox5.1.2 使用pdfbox抽取示例 5.1.3 提取pdf文件标题 5.1.4 处理pdf格式的公文 5.2 抽取office文档5.2.1 学习poi 5.2.2 使用poi抽取word示例 5.2.3 使用poi抽取ppt示例 5.2.4使用poi抽取excel示例 5.3 抽取rtf 5.3.1 开源rtf文件解析器 5.3.2 实现一个rtf文件解析器 5.3.3解析rtf示例 5.4 本章小结第6章多媒体抽取 6.1 抽取视频 6.1.1 抽取视频关键帧 6.1.2 java视频处理框架6.1.3 java视频抽取示例 6.2 音频抽取 6.2.1 抽取音频 6.2.2 学习java音频抽取技术 6.3 本章小结第7章去掉网页中的“噪声” 7.1 “噪声”对网页的影响 7.2 利用“统计学”消除“噪声” 7.2.1 网站风格树7.2.2“统计学去噪”java实现 7.3 利用“视觉”消除“噪声” 7.3.1 “视觉”与“噪声” 7.3.2“视觉去噪”java实现 7.4 本章小结第3篇自己动手挖掘web数据第8章分析web图 8.1 存储web“图” 8.2利用web“图”分析链接 8.3 google的秘密——pagerank 8.3.1 深入理解pagerank算法 8.3.2pagerank算法的java实现 8.3.3 应用pagerank进行链接分析 8.4 pagerank的兄弟hits 8.4.1深入理解hits算法 8.4.2 hits算法的java实现 8.4.3 应用hits进行链接分析 8.5pagerank与hits的比较 8.6 本章小结第9章去掉重复的“文档” 9.1 何为“重复”的文档 9.2去除“重复”文档——排重 9.3 利用“语义指纹”排重 9.3.1 理解“语义指纹” 9.3.2 “语义指纹”排重的java实现9.4 simhash排重 9.4.1 理解simhash 9.4.2 simhash排重的java实现 9.5 分布式文档排重9.6 本章小结第10章分类与聚类的应用 10.1 网页分类 10.1.1 收集语料库 10.1.2 选取网页的“特征”10.1.3 使用支持向量机进行网页分类 10.1.4 利用url地址进行网页分类 10.1.5 使用adaboost进行网页分类10.2 网页聚类 10.2.1 深入理解dbscan算法 10.2.2 使用dbscan算法聚类实例 10.3 本章小结

.4.

List<House> list = query.list();
//第一种用：的循环
/*for(House house:list){
System.out.println("标题是："+house.getTitle());
System.out.println("街道是："+house.getStreet().getName());
}*/
//第二种循环
for(int i = 0;i<list.size();i++){
System.out.println("标题是："+list.get(i).getTitle());
System.out.println("街道是："+list.get(i).getStreet().getName());
}

Main方法怎么调用非static函数

class Program
    {
        static void Main(string[] args)
        {
            Program p = new Program();
            p.Print();

        }

        void Print()
        {
            Console.WriteLine("Print");
        }
    }

所谓静态的，就是在初次运行的时候，这个类就实例好了，常驻内存，访问是直接通过类名称就可以访问其里面的静态方法。而非静态的是在运行的时候，需要的时候才实例化，使用完毕内存就会被垃圾回收期不定时的回收掉。 因此要从静态类中调用非静态的，就首先需要new这个类得实例。通过你创建的引用去访问里面的方法。

6.在mysql中想保存类似“104.0658093”这样的值应该用什么类型的列？怎么感觉都有点不够长啊？

这样小数点后面只能最都有5位小数……

用DECIMAL就行了，如果不参与计算，则也可以用字符型。

DECIMAL(10,7) 就解决了你只能打5个小数的问题。

7.Ctrl+/ 用//注释当前行,再按则取消注释
Ctrl+Shift+/ 用/* */来注释整段，再按则取消注释

mysql和 oracle的区别在技术上?arraylist到底能存多少

今面试被问到这个，不知道改怎么回答啊，那位大侠给小弟讲解下
1mysql和 oracle的区别在技术上

引用
今天的 CSDN 不知道在发什么疯，莫名其妙就刷新一下，害我打的字全没了！

1：

MySQL 与 Oracle 根本就没法比，不管是从技术、功能、安全性，还是性能上。
Oracle 是企业级数据库的龙头老大，而 MySQL 在开源数据库市场上占据第一，但毕竟不是企业级数据库。
MySQL 在技术上也比不过 PostgreSQL，PostgreSQL 是最为先进的开源数据库。

2：

ArrayList 存储容量受到内容对象的大小、JVM 内存的限制，没有具体的数值。ArrayList 是由数组实现的，Java 中数组的最大长度不会超过 int 的最大值，因此 ArrayList 的容量不会超过 2147483647。

价格也比不上啊!

先谢谢各位老大了，还是csdn好，那么多人回答，
数据库那个题我估计很不好回答
arraylist那个，我做了个测试，往里存2的31次方个元素，64m的内存很快就溢出了，512m也溢出了，我就没有在试，就估计也就是2的31次方了

MySQL数据库中存储一个ArrayList

I have an mysql database in which I am storing details of a project. One of these details is the staff associated with the project. In the project table I have a column for staff in the project. In my c# code behind I am storing it in an arraylist. I am wondering is there any way to store that arraylist in a single column in the database?

I think you should certainly follow the concept of many-to-manyfor this, like pointed by @zerkms. But if you is really interested insaving theArrayList into asingle field, you canserialize thisArrayList toString and store in aVARCHAR field.

About serializing ArrayList to String

10.跳出多重for循环

一层for循环时，只要break就ok了

for (int i =0; i <7; i++) {

      if(i==4&&j==4){
                   break;
            }
     }

两层for循环，跳出最外面的for循环

int tiao;

for(inti=0; i<7; i++) {
           for(intj=0; j<7; j++) {
               if(i==4&&j==4){
                   breaktiao ;
                }
            }
        }
多层for循环，就要在需要跳出的那一层的for循环外面定义一个变量，往外跳的时候，就跳到定义的变量就ok了。

这样有多少个for循环就都不怕了

11.

导出mysql表结构方法

一，命令行导出表结构：

cmd进入mysql的安装目录下的bin目录，

使用下面命令进行导出（-d表示只导出表结构不导出数据）：

mysqldump -u root -p -d test>test.sql

导出成功后会在$mysql_home\bin目录下下生成个sysexpert.sql文件

二，使用navicat for mysql导出：

1，选中要导出的数据库sysexpert，右键-Data Transfer...

2,在打开的串口中选择File单选框，选择要输出到的sql文件：

3，在Advanced中将create records单选框勾掉，否则会将所有数据也倒出来，

4，点击Start导出即可

ps：在数据库上右键而不是表

12.java传给js 就用标签，或el就行了，javascript给java用ajax

<%
String flag = request.getAttribute("flag");
%>
<script language="JavaScript">
alert(<%=flag%>);
</script>

java代码并不是按照网页中的顺序执行啊，js执行完了，java里面的的对象才能生效，那岂不是我需要的值已经过期了
如果那样要是可以的话，这个js和java代码的执行顺序是什么样的（ps：到底怎么样顺序还得研究，js，onload，jsp等）
<script>
alert(<%=request.getParmater("requestInfo")%>);
</script>
<script>
alert("request is over");
</script>

13.

int i =rand.nextint(100);

自从JDK最初版本发布起，我们就可以使用java.util.Random类产生随机数了。在JDK1.2中，Random类有了一个名为nextInt()的方法：
  public int nextInt(int n)
  给定一个参数n，nextInt(n)将返回一个大于等于0小于n的随机数，即：0 <= nextInt(n) < n。

14.

JVM 32 bit和JVM 64 bit

JVM是Java开发人员必不可少的工具，而JVM也有32 bit和64 bit之分. 那实际上32位和64位JDK有什么区别呢？ JVM 32bit 和JVM 64bit的区别如下: 1目前只有server VM支持64bit JVM，client不支持32bit JVM。 2 .The Java Plug-in, AWT Robot and Java Web Start这些组件目前不支持64bit JVM 3.本地代码的影响：对JNI的编程接口没有影响，但是针对32-bit VM写的代码必须重新编译才能在64-bit VM工作。 4.32-bit JVM堆大小最大是4G, 64-bit VMs 上, Java堆的大小受限于物理内存和操作系统提供的虚拟内存。(这里的堆并不严谨) 5.线程的默认堆栈大小：在windows上32位JVM,默认堆栈最大是320k 64-bit JVM是1024K。 6.性能影响: (1)64bit JVM相比32bit JVM,在大量的内存访问的情况下，其性能损失更少，AMD64和EM64T平台在64位模式下运行时，Java虚拟机得到了一些额外的寄存器，它可以用来生成更有效的原生指令序列。 (2)性能上，在SPARC 处理器上，当一个java应用程序从32bit 平台移植到64bit平台的64bit JVM会用大约 10-20%的性能损失，而在AMD64和 EM64T平台上，其性能损失的范围在0-15%.

以上摘自http://java.sun.com/docs/hotspot/HotSpotFAQ.html#64bit_description

64位的电脑可以装32位的软件 32位的电脑不能装64位的软件

如何选择JVM 32bit和JVM 64bit

网上有选择JVM32bit和JVM 64bit的建议: 1、你的应用程序是否需要超过2GB的Java Heap来获取更优的性能呢？ Yes = 64-Bit No = 32-Bit 如何判断你的应用需要多大的Java Heap呢？可以通过计算平均的Heap使用情况来确定。

2、你的应用程序是否需要高精度的科学计算进行统计、安全、加密等等？ Yes = 64-Bit No = 32-Bit 3、你的应用程序只需要小于2GB的Java Heap？（与第1点类似） Yes = 32-Bit on 64Bit OS No = 64-Bit 4、你的应用程序并不需要64位的特性，但是却是部署在64位的操作系统上？ Yes = 32-Bit No = 64-Bit 5、最重要的一点是，其他情况下那就在32位的OS上用32位的JDK

15.txt依靠tab键来生成excel，tab 键代替空格键，copy记事本一个tab键，粘贴过去即可