爬虫
小羽Jary
满目山河空念远,不如怜取眼前人
展开
-
快速设置随机的UserAgent
目录使用fake-useragent包1.安装fake-usragent2.实现:3.如果你要设置成某个浏览器的UserAgent也是可以的在Scrapy中实现随机UserAgent方法一:直接在程序中添加UserAgent方法二:在middlewares中添加UserAgent方法三:直接在sttings文件里面上设置UserAgent使用fake-usera...原创 2019-01-10 15:25:25 · 2956 阅读 · 0 评论 -
快速设置Scrapy随机的IP代理
一、把随机的IP列表定义在settings.py文件里面PROXIES=['http://180.119.43.106:4228', 'http://106.56.246.104:4237', 'http://118.79.56.240:4278', 'http://223.215.175.132:4272', 'http://115.221.10.97:2316', 'h...原创 2019-01-11 13:56:36 · 5274 阅读 · 0 评论 -
python去除html标签及标签里面的内容
使用正则表达式import rehtml='<p class="txt" node-type="feed_list_content" nick-name="人民日报">\n 【<a href="http://s.weibo.com/weibo?q=" target="_blank">#13个求职新方向#</a>!有...原创 2019-04-08 14:00:55 · 4916 阅读 · 0 评论 -
selenium获取全部页面的html
执行js得到整个HTMLhtml = driver.execute_script("return document.documentElement.outerHTML")原创 2019-04-15 17:18:55 · 16476 阅读 · 2 评论 -
selenium基本操作
firefox设置selenium无界面from selenium import webdriveroptions = webdriver.FirefoxOptions()options.set_headless()driver=webdriver.Firefox(firefox_options=options)driver.get("http://www.baidu.com")...原创 2019-04-09 11:46:32 · 1060 阅读 · 0 评论