爬虫
夜神玥
中国电子竞技加油,不要不播我们LOL
展开
-
selenium
1..声明浏览器 from selenium import webdriver browser = webdriver.Chrome()请求网址browser.get(‘https://www.baidu.com‘)响应信息browser.page_source 获取HTML源码browser.current_url 获取当前页面的URL browser.get_...原创 2018-08-28 10:24:12 · 159 阅读 · 0 评论 -
爬虫总结
爬虫基础知识 1.1 HTTP通信过程:浏览器在上面输入url,通过浏览器发送一个请求,基于url的地址找到对应的Sever,Sever根据请求获得响应,浏览器对获得的响应进行解析。 1.2 请求 (1)请求方式:get和post (2)请求URL:对应的Sever的地址 (3)请求头:User-Agent、Content-Type、Cookie等 (4)请求体:POST有请求体,F...原创 2018-08-28 10:25:19 · 505 阅读 · 0 评论 -
爬虫遇到的坑(持续更新)
1.当你在scrapy crawl xxx -o xxx.json 时出现乱码,那么你要在settings里添加以下一句: FEED_EXPORT_ENCODING = ‘utf-8’ 如果输出到CSV文件是乱码问题,那么你要用记事本打开,然后在保存为utf-8 格式 因为excl 默认的编码是acii2.语法 说明 /artical/div[1] 选取所有属于artical 子元...原创 2018-08-28 10:26:32 · 1310 阅读 · 0 评论 -
爬取妹子图小程序
import requests from bs4 import BeautifulSoup import osdef get_page_urls(url): headers = { ‘Content-Language’: ‘zh-CN.zh;q=0.9’, ‘Accept’: ‘text / html, application / xhtml...原创 2018-08-29 09:06:34 · 655 阅读 · 0 评论 -
爬虫--json链接的演示
import requestsimport timeimport numpy as npimport pandas as pd# 基础链接base_url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'# 请求头headers = { "Cookie": "use...原创 2018-09-08 14:05:51 · 2778 阅读 · 0 评论 -
爬虫详解链接
Requests请求库 详解 https://www.cnblogs.com/wyb666/p/9058301.html爬虫基础 https://www.cnblogs.com/wangshuyang/p/7677571.htmlScrapy框架爬虫基础 https://www.cnblogs.com/alan-babyblog/p/5527934.html西刺免费代理 htt...转载 2018-09-06 10:57:07 · 248 阅读 · 0 评论 -
爬虫--智联爬取--拼接链接的演示
import requestsimport timeimport numpy as npimport pandas as pd# 头文件headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome...原创 2018-11-05 09:03:23 · 922 阅读 · 0 评论