![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
java
Cynicsss
小白
展开
-
java文件写入
File file=new File("D:\\eclworkspace\\echarge\\webcontext.txt"); try { PrintStream context=new PrintStream(new FileOutputStream(file)); context.println(result); } catch (FileNotFoundException ...原创 2018-02-11 19:16:55 · 251 阅读 · 0 评论 -
java给爬虫设置User-Agent(绕过最表面的反爬虫机制)
今天在爬my电影评分时发现访问被控制,但浏览器依旧能访问,查阅后得知因为java程序与浏览器访问不同,一些采取了简单采反爬虫机制的网站可以拒绝这些小爬虫的访问。my电影也用了不少反爬虫策略,比如说票房、评分人数都转换了编码让你不好直接爬取,但我目前不需要那一部分。在给java程序设置了User-Agent后便能进行爬取(想要爬取的放慢点速度吧。。双方互相都体谅一下)URL realUrl=new ...原创 2018-02-12 20:39:07 · 3481 阅读 · 0 评论 -
java获取正则表达式匹配结果中的部分内容
在用正则表达式在html代码中找到相应标签后通过分组的方法可以获取整个匹配内容中的你想要的内容Pattern compile1=Pattern.compile("(<div class=\"channel-detail movie-item-title\" title=\")(.*?)(\">)");正则表达式中的括号便是一个个分组,想要获取哪个括号中的内容,用下面的函数:Matche...原创 2018-02-12 20:44:07 · 6232 阅读 · 0 评论