- 博客(15)
- 收藏
- 关注
原创 JDBC入门
JDBC:1. 概念:Java DataBase Connectivity Java 数据库连接, Java语言操作数据库* JDBC本质:其实是官方(sun公司)定义的一套操作所有关系型数据库的规则,即接口。各个数据库厂商去实现这套接口,提供数据库驱动jar包。我们可以使用这套接口(JDBC)编程,真正执行的代码是驱动jar包中的实现类。2. 快速入门:* 步骤:1. 导入驱动jar包 mysql-connector-java-5.1.37-bin.jar1.1复制mysql-connect
2020-07-27 10:41:10 102
原创 Junit测试+反射+注解
Junit单元测试:* 测试分类: 1. 黑盒测试:不需要写代码,给输入值,看程序是否能够输出期望的值。 2. 白盒测试:需要写代码的。关注程序具体的执行流程。 Junit使用:白盒测试 定义测试方法:可以独立运行 * 方法名:test测试的方法名 testAdd() * 返回值:void * 参数列表:空参 3. 给方法加@Test 4. 导入junit依赖环境package cn.itcast.junit.test;import cn.itc
2020-07-25 16:23:51 132
原创 破解百度翻译接口
import requestsimport jsonimport reimport execjsclass BaiduTranslateSpider(object): def __init__(self): self.get_url='https://fanyi.baidu.com/?aldtype=16047' self.post_url='https://fanyi.baidu.com/v2transapi?from=en&to=zh'
2020-07-02 20:16:33 661
原创 selenium+Chrom爬取京东数据
from selenium import webdriverimport timeclass JdSpider(object): def __init__(self): self.url='https://www.jd.com/' #创建浏览器对象 self.browser=webdriver.Chrome() #计数 self.i=0 #跳转到商品详情页——爬虫书 def get_html(se
2020-07-01 19:50:07 244
原创 爬取人人网个人主页
import requestsfrom lxml import etreeclass Renrenlogin(object): def __init__(self): #post_url: form表单中action中的url地址 self.post_url='http://www.renren.com/PLogin.do' #真正要抓取的页面url地址:人人网的个人主页 self.get_url='http://www.renr
2020-06-30 22:52:06 982
原创 豆瓣类型电影爬取
import requestsimport jsonfrom fake_useragent import UserAgentimport timeimport randomimport reclass DoubanSpider(object): def __init__(self): #F12抓取的URL地址 self.url='https://movie.douban.com/j/chart/top_list' \ '
2020-06-28 20:11:40 305
原创 爬取xicidaili的ip并建立ip代理池
import requestsfrom lxml import etreefrom fake_useragent import UserAgentimport timeimport randomclass IpSpider(object): def __init__(self): self.url='https://www.xicidaili.com/nn/{}' def get_headers(self): ua=UserAgent()
2020-06-24 12:42:15 1480
原创 xpath爬取链家二手房
import requestsfrom lxml import etreefrom fake_useragent import UserAgentimport randomimport timeclass LianjiaSpider(object): def __init__(self): self.url='https://nc.lianjia.com/ershoufang/pg{}/' #功能函数:随机获取User-Agent def get_hea
2020-06-21 18:36:48 537
原创 爬取百度图片
import requestsfrom day02_spider.useragents import ua_listimport randomimport osimport refrom urllib import parseclass BaiduImageSpider(object): def __init__(self): self.url='https://image.baidu.com/search/index?tn=baiduimage&word={
2020-06-18 19:44:40 212
原创 二级爬取猫眼电影
爬取:电影名称+主演+时间+评论+保存图片到指定路径from urllib import requestimport reimport randomfrom day01_爬虫.useragents import ua_listimport osclass MaoyanSpider(object): def __init__(self): self.url="https://maoyan.com/board/4?offset={}" #获取响应内容 de
2020-06-16 22:11:59 340
原创 数据库保存Top100猫眼电影
from urllib import requestimport reimport randomimport timeimport pymysqlclass MaoyanSpider(object): def __init__(self): self.url="https://maoyan.com/board/4?offset={}" #添加计数变量 self.i=0 #创建两个对象 self.db = py
2020-06-15 23:13:45 485
原创 Top100猫眼电影爬取案例
#保存请求头的列表ua_list=[ "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 2.0.50727; SLCC2; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; Tablet PC 2.0; .NET4.0E)", "Mozilla/5.0
2020-06-15 19:51:07 595
原创 正则非贪婪模式练习
import rehtml = '''<div class="animal"> <p class="name"> <a title="Tiger"></a> </p> <p class="content"> Two tigers two tigers run fast </p></div><div class="animal"> <p c
2020-06-15 19:44:11 147
原创 爬虫基本样式
from urllib import requestfrom urllib import parse#拼接URL地址函数def get_url(word): baseurl="https://www.baidu.com/s?" #编码+拼接 parasm=parse.urlencode({"wd":word})#编码 url=baseurl+parasm+"&usm=3&rsv_idx=2&rsv_page=1"#&usm=3&
2020-06-15 19:41:18 356
原创 csv实践
import csvwith open("fengyun.csv","w",newline="",encoding="utf-8") as f: #每写入一个数据,在windows下会默认添加一个空行,加 newline=""就不会出现空行 writer = csv.writer(f)#初始化对象 writer.writerow(["步惊云","超哥哥"]) #写多行 writer.writerows([("呢风","梦"),("孔慈","情霜")])..
2020-06-15 19:36:01 212
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人