scrapy
全杰cc
不安分的编程人员一枚
展开
-
selenium结合lxml爬取豆瓣电影相关信息
环境说明重要代码解释完整代码环境说明python3.5 centos7.2重要代码解释使用selenium加载网页:driver=webdriver.PhantomJS()driver.get("https://movie.douban.com/")使用selenium和web进行互动将网页加在完全:end = Truewhile (end): try: end原创 2016-09-04 21:02:52 · 1026 阅读 · 0 评论 -
python爬虫总结
基础基础原创 2016-09-04 21:05:14 · 391 阅读 · 0 评论 -
requests应用step1
爬取说明使用模块主要作用说明代码解释完整代码爬取说明爬取的是小黄鸭的图片并保存到本地使用模块主要作用说明import requestsfrom urllib.request import urlretrieveimport reimport osurlretrieve:保存下载的图片 os:判断文件目录是否存在和文件目录的创建 re:正则模块,查找需要的内容代码解释设置了请求头:u原创 2016-09-05 17:20:40 · 276 阅读 · 0 评论 -
GET请求
设置URL创建链接设置参数发出Get请求得到返回请求获得url输入流补充设置URLURL obj = new URL("https://www.baidu.com");创建链接HttpURLConnection con = (HttpURLConnection) obj.openConnection();设置参数con.setRequestProperty("User-Agent",原创 2016-10-10 14:39:28 · 412 阅读 · 0 评论 -
1、URL和URLConnection类的使用
URL的使用URLConnection的使用URL的使用URL obj = new URL("https://www.baidu.com/");System.out.println(obj.getPath());System.out.println(obj.getProtocol());System.out.println(obj.getQuery());System.out.printl原创 2016-10-10 15:03:31 · 1596 阅读 · 0 评论